Mistral ha presentato Mistral Small 3, un modello da 24B parametri ottimizzato per la latenza e rilasciato sotto licenza Apache 2.0.
Mistral Small 3 – afferma l’azienda – è competitivo con modelli più grandi come Llama 3.3 70B o Qwen 32B ed è un eccellente sostituto open di modelli proprietari e meno trasparenti come GPT4o-mini.
Il modello Mistral Small 3 secondo la società sviluppatrice è alla pari con Llama 3.3 70B, pur essendo più veloce di tre volte sullo stesso hardware.
Mistral Small 3 è un modello pre-addestrato e istruito per l'”80%” dei compiti di AI generativa, ovvero quelli che richiedono prestazioni robuste in termini di linguaggio e istruzioni, con una latenza molto bassa.
Il team di sviluppo spiega di aver progettato questo nuovo modello per saturare le prestazioni a una dimensione adatta al deployment in locale. In particolare, Mistral Small 3 ha un numero di layer di gran lunga inferiore rispetto ai modelli concorrenti, riducendo sostanzialmente il tempo per ogni passaggio. Con un’accuratezza superiore all’81% su MMLU e una latenza di 150 tokens/s, Mistral Small è attualmente il modello più efficiente della sua categoria, dichiara l’azienda.
Il team sta rilasciando sia un checkpoint preaddestrato che un checkpoint ottimizzato per le istruzioni sotto Apache 2.0. I checkpoint possono servire come potente base per accelerare i progressi.
L’azienda fa anche notare che Mistral Small 3 non è addestrato né con RL né con dati sintetici, quindi si trova in una fase precedente della pipeline di produzione dei modelli rispetto a modelli come Deepseek R1 (che il team di Mistral, per inciso, definisce un’ottima e complementare tecnologia open-source). Può servire come modello di base per costruire le capacità di ragionamento.
Tra i clienti e la community, spiega Mistral, il team vede emergere diversi casi d’uso distinti per i modelli pre-addestrati di queste dimensioni:
- Assistenza conversazionale a risposta rapida: Mistral Small 3 eccelle negli scenari in cui sono fondamentali risposte rapide e precise. Ciò include gli assistenti virtuali in molti scenari in cui gli utenti si aspettano un feedback immediato e interazioni quasi in tempo reale.
- Function calling a bassa latenza: Mistral Small 3 è in grado di gestire una rapida esecuzione di funzioni quando viene utilizzato come parte di flussi di lavoro automatizzati o agenziali.
- Fine-tuning per creare esperti di materia: Mistral Small 3 può essere ottimizzato per specializzarsi in domini specifici, creando esperti di materia altamente accurati. Ciò è particolarmente utile in campi come la consulenza legale, la diagnostica medica e l’assistenza tecnica, dove la conoscenza specifica del dominio è essenziale.
- Inferenza locale: Particolarmente utile per gli hobbisti e le organizzazioni che gestiscono informazioni sensibili o proprietarie. Una volta quantizzato, Mistral Small 3 può essere eseguito privatamente su una singola RTX 4090 o su un MacBook con 32 GB di RAM, afferma il team che ha sviluppato il modello.
I clienti stanno valutando Mistral Small 3 in diversi settori, aggiunge il team, tra cui:
- Clienti dei servizi finanziari per il rilevamento delle frodi.
- Fornitori di servizi sanitari per il triage dei clienti.
- Aziende di robotica, automobilistiche e manifatturiere per il comando e il controllo sul dispositivo.
- I casi d’uso orizzontali tra i clienti includono il servizio clienti virtuale e l’analisi del sentiment e del feedback.
Mistral Small 3 è ora disponibile su la Plateforme come mistral-small-latest o mistral-small-2501. È possibile consultare la documentazione per imparare a usare i modelli Mistral per la generazione di testi.
Mistral sta inoltre collaborando con Hugging Face, Ollama, Kaggle, Together AI e Fireworks AI per rendere il modello disponibile sulle loro piattaforme. E il modello è in arrivo anche su IBM watsonx, NVIDIA NIM, Amazon SageMaker, Groq, Databricks e Snowflake.
Maggiori informazioni sulle prestazioni e sulla licenza, sono disponibili sul sito di Mistral.