Nel suo impegno a rendere l’intelligenza artificiale il più possibile accessibile, OpenAI ha annunciato GPT-4o mini, il modello di dimensioni piccole dell’azienda di ChatGPT più efficiente dal punto di vista dei costi.
Secondo OpenAI, GPT-4o mini amplierà in modo significativo la gamma di applicazioni sviluppate con l’AI, rendendo l’intelligenza artificiale molto più accessibile. GPT-4o mini – sottolinea l’azienda – ha ottenuto un punteggio dell’82% su MMLU e attualmente supera GPT-4 nelle preferenze di chat nella leaderboard di LMSYS.
Il prezzo è di 15 centesimi per milione di token di input e 60 centesimi per milione di token di output, un ordine di grandezza più conveniente rispetto ai precedenti modelli di frontiera e più del 60% in meno rispetto a GPT-3.5 Turbo.
GPT-4o mini consente di svolgere un’ampia gamma di attività grazie al suo basso costo e alla sua bassa latenza, come ad esempio le applicazioni che concatenano o parallelizzano più chiamate al modello (ad esempio, chiamando API multiple), passano un grande volume di contesto al modello (ad esempio, l’intera base di codice o la cronologia delle conversazioni) o interagiscono con i clienti attraverso risposte testuali rapide e in tempo reale (ad esempio, i chatbot di assistenza clienti).
Oggi GPT-4o mini supporta testo e vision nell’API, mentre in futuro OpenAI afferma che saranno supportati input e output di testo, immagini, video e audio. Il modello ha una finestra di contesto di 128K token, supporta fino a 16K token di output per richiesta e ha una conoscenza fino a ottobre 2023. Grazie al tokenizer migliorato condiviso con GPT-4o, la gestione di testi non inglesi è ora ancora più conveniente.
GPT-4o mini, un modello di piccole dimensioni ma con intelligenza testuale e ragionamento multimodale di livello superiore
OpenAI afferma che GPT-4o mini supera GPT-3.5 Turbo e altri modelli di piccole dimensioni nei benchmark accademici per quanto riguarda l’intelligenza testuale e il ragionamento multimodale, e supporta la stessa gamma di linguaggi di GPT-4o. Dimostra inoltre ottime prestazioni nelle chiamate di funzione, che possono consentire agli sviluppatori di creare applicazioni che recuperano dati o intraprendono azioni con sistemi esterni, e prestazioni migliori nel contesto lungo rispetto a GPT-3.5 Turbo.
GPT-4o mini è stato valutato tramite diversi benchmark chiave.
- Attività di ragionamento: GPT-4o mini sarebbe migliore di altri modelli di piccole dimensioni nei compiti di ragionamento che coinvolgono sia il testo che la visione, ottenendo un punteggio dell’82,0% su MMLU, un benchmark di intelligenza testuale e ragionamento, rispetto al 77,9% di Gemini Flash e al 73,8% di Claude Haiku.
- Competenze matematiche e di coding: GPT-4o mini secondo OpenAI eccelle nei task di ragionamento matematico e di programmazione, superando i precedenti modelli di piccole dimensioni presenti sul mercato. Su MGSM, che misura il ragionamento matematico, GPT-4o mini ha ottenuto un punteggio dell’87,0%, rispetto al 75,5% di Gemini Flash e al 71,7% di Claude Haiku. Su HumanEval, che misura le prestazioni di coding, GPT-4o mini ha ottenuto un punteggio dell’87,2%, rispetto al 71,5% di Gemini Flash e al 75,9% di Claude Haiku, dichiara OpenAI.
- Ragionamento multimodale: GPT-4o mini ha ottenuto un buon risultato anche in MMMU, una valutazione del ragionamento multimodale, con un punteggio del 59,4% rispetto al 56,1% di Gemini Flash e al 50,2% di Claude Haiku, sempre in base a quanto riportato da OpenAI.
Nell’ambito del processo di sviluppo del modello, OpenAI ha collaborato con alcuni partner fidati per comprendere meglio i casi d’uso e i limiti di GPT-4o mini. L’azienda ha collaborato con aziende come Ramp e Superhuman che hanno riscontrato che GPT-4o mini ha prestazioni significativamente migliori rispetto a GPT-3.5 Turbo per attività come l’estrazione di dati strutturati da file di ricevute o la generazione di risposte e-mail di alta qualità quando viene fornita la cronologia delle discussioni.
Il team di OpenAI sottolinea altresì che la sicurezza è integrata nei modelli dell’azienda fin dall’inizio e viene rafforzata in ogni fase del processo di sviluppo. In fase di pre-training, OpenAI filtra le informazioni che non vuole che i suoi modelli imparino o producano, come ad esempio i discorsi di odio, i contenuti per adulti, i siti che aggregano principalmente informazioni personali e lo spam. Nel post-training, il team allinea il comportamento del modello alle policy dell’azienda utilizzando tecniche come il reinforcement learning with human feedback (RLHF) per migliorare l’accuratezza e l’affidabilità delle risposte del modello.
GPT-4o mini ha le stesse mitigazioni di sicurezza integrate in GPT-4o, che l’azienda ha attentamente valutato con valutazioni sia automatiche che umane in base al suo Preparedness Framework e in linea con i suoi impegni volontari. Più di 70 esperti esterni in campi come la psicologia sociale e la disinformazione hanno testato GPT-4o per identificare i potenziali rischi, che l’azienda ha affrontato e di cui intende condividere i dettagli nella prossima system card di GPT-4o e nella Preparedness scorecard. Gli insight di questi esperti hanno contribuito a migliorare la sicurezza di GPT-4o e di GPT-4o mini.
Sulla base di quanto appreso, i team di OpenAI hanno anche lavorato per migliorare la sicurezza del GPT-4o mini utilizzando nuove tecniche informate dalla ricerca interna dell’azienda. GPT-4o mini nell’API è il primo modello ad applicare il metodo di instruction hierarchy dell’azienda, che contribuisce a migliorare la capacità del modello di resistere a jailbreak, prompt injection e system prompt extraction. Questo rende le risposte del modello più affidabili e contribuisce a renderne più sicuro l’uso nelle applicazioni su scala.
OpenAI dichiara inoltre che continuerà a monitorare l’utilizzo di GPT-4o mini e a migliorare la sicurezza del modello non appena individuerà nuovi rischi.
GPT-4o mini è ora disponibile come modello di testo e vision nelle API Assistants, Chat Completions e Batch. Gli sviluppatori pagano 15 centesimi per 1 milione di token di input e 60 centesimi per 1 milione di token di output (circa l’equivalente di 2500 pagine di un libro standard). Nei prossimi giorni è previsto il rollout del fine-tuning di GPT-4o mini.
In ChatGPT, gli utenti Free, Plus e Team possono accedere a GPT-4o mini al posto di GPT-3.5. Anche gli utenti Enterprise avranno accesso a partire dalla prossima settimana.
Negli ultimi anni – sottolinea OpenAI – è stato possibile assistere a notevoli progressi nell’intelligenza artificiale abbinati a sostanziali riduzioni dei costi. Ad esempio, il costo per token di GPT-4o mini è sceso del 99% rispetto a text-davinci-003, un modello meno capace introdotto nel 2022. OpenAI afferma di volersi impegnare a continuare questa traiettoria di riduzione dei costi e di miglioramento delle capacità dei modelli.
L’azienda prevede un futuro in cui i modelli saranno perfettamente integrati in ogni app e in ogni sito web. GPT-4o mini sta aprendo la strada agli sviluppatori per costruire e scalare potenti applicazioni di intelligenza artificiale in modo più efficiente e conveniente, per un futuro dell’AI sempre più accessibile, affidabile e integrato nelle esperienze digitali quotidiane.