Mistral AI, la startup francese specializzata in intelligenza artificiale, ha annunciato il lancio di Mistral 7B, che l’azienda presenta come il modello linguistico più potente per le sue dimensioni.
Come sottolinea il nome, si tratta del primo modello da 7 miliardi di parametri di Mistral, e secondo l’azienda supera tutti i modelli open attualmente disponibili fino a 13B parametri su tutti i benchmark standard inglesi e di codice.
Questo, spiega Mistral, è il risultato di tre mesi di intenso lavoro, durante i quali il team ha ricostruito uno stack di MLops ad alte prestazioni e progettato una pipeline di elaborazione dei dati molto sofisticata, partendo da zero.
Il team afferma che le prestazioni di Mistral 7B dimostrano cosa possono fare i piccoli modelli con sufficiente convinzione, ed evidenzia il tracciamento dei modelli più piccoli che hanno ottenuto prestazioni superiori al 60% su MMLU: in due anni, si è passati da Gopher (280B, DeepMind, 2021), a Chinchilla (70B, DeepMind, 2022), a Llama 2 (34B, Meta, luglio 2023) e ora a Mistral 7B.
L’azienda ha condiviso sul proprio sito una serie di benchmark secondo i quali Mistral 7B, un modello da 7,3B parametri, supera Llama 2 13B in tutti i benchmark, supera Llama 1 34B su molti benchmark, si avvicina alle prestazioni di CodeLlama 7B sul codice, pur confermandosi buono nei task in inglese, utilizza la Grouped-query attention (GQA) per un’inferenza più veloce e usa la Sliding Window Attention (SWA) per gestire sequenze più lunghe a un costo minore.
Mistral 7B – annuncia l’azienda – è solo un primo passo verso la costruzione dei modelli di frontiera della roadmap di Mistral. Tuttavia, può essere utilizzato per risolvere molti compiti: riassunto, strutturazione e risposta alle domande, per citarne alcuni.
Elabora e genera testo molto più velocemente delle grandi soluzioni proprietarie e funziona a una frazione dei loro costi, sostiene la startup francese. Inoltre, Mistral 7B è rilasciato con licenza Apache 2.0, il che lo rende utilizzabile senza restrizioni ovunque.
L’ambizione di Mistral, dichiarata dalla stessa azienda, è quella di diventare il principale supporter della community dell’AI generativa open e portare i modelli open a prestazioni allo stato dell’arte, rendoli la soluzione ideale per la maggior parte delle applicazioni di AI generativa.
L’azienda ha poi annunciato che, nei prossimi mesi, Mistral AI rilascerà progressivamente e metodicamente nuovi modelli che colmeranno il divario di prestazioni tra le soluzioni black-box e quelle aperte, rendendo le soluzioni open le migliori opzioni per una gamma crescente di casi d’uso aziendali. Allo stesso tempo, cercherà di potenziare gli sforzi della community per migliorare le prossime generazioni di modelli.
La società francese si è dunque impegnata a rilasciare i modelli aperti più solidi parallelamente allo sviluppo della sua offerta commerciale, nonché a proporre modelli proprietari ottimizzati per il deployment on-premise/virtual private cloud. Questi modelli saranno distribuiti come soluzioni white-box, rendendo disponibili sia i pesi che i sorgenti del codice. Il team sta lavorando attivamente a soluzioni in hosting e a distribuzioni dedicate alle imprese.
Inoltre, il team sta già addestrando modelli molto più grandi e si sta orientando verso nuove architetture.