OpenAI conclude i suoi 12 giorni di annunci presentando in anteprima i suoi prossimi modelli di frontiera, o3 e o3-mini e aprendo l’accesso anticipato ai ricercatori in materia di sicurezza e protezione.
L’azienda invita la community dei ricercatori a candidarsi per esplorare e provare questi sistemi durante il suo processo di test prima di qualsiasi rilascio pubblico. Per trovare le domande di partecipazione, che si aprono oggi, è possibile visitare il post sul blog di OpenAI.
Durante la presentazione in live streaming, OpenAI ha condiviso le prime valutazioni di o3 e o3-mini per illustrare le loro prestazioni rispetto a o1 e o1-mini. Sebbene si tratti di versioni iniziali dei modelli e i risultati finali possano evolvere con un ulteriore post-training, l’azienda si dice entusiasta dei loro progressi, in particolare sui benchmark matematici e sulle nuove tecniche di sicurezza.
Di seguito alcuni highlight evidenziati da OpenAI:
- Prestazioni di coding elevate: o3 supera o1 di 22,8 punti percentuali su SWE-Bench Verified e raggiunge un punteggio Codeforces di 2727, superando il punteggio di 2665 del Chief Scientist di OpenAI.
- Matematica e scienze: o3 ottiene un punteggio del 96,7% in AIME 2024, mancando una sola domanda, e raggiunge l’87,7% in GPQA Diamond, ben al di sopra delle prestazioni degli esperti umani.
- Benchmark di frontiera: o3 stabilisce nuovi record nelle valutazioni più difficili conosciute, risolvendo il 25,2% dei problemi su Frontier Math di EpochAI, dove nessun altro modello supera il 2%. Nel test ARC-AGI, o3 più che triplica il punteggio di o1 sul low compute e supera l’85% (verificato dal team dell’ARC Prize, in diretta alle 10.00 PST), una pietra miliare nelle capacità di ragionamento concettuale.
Parallelamente, OpenAI sta pubblicando una nuova ricerca sull’allineamento deliberativo, una tecnica all’avanguardia che è stata fondamentale per l’allineamento di o1, il modello più robusto e allineato dell’azienda fino ad oggi.
Con il progredire delle capacità delle IA, sottolinea il team di OpenAI, aumenta anche l’opportunità di migliorare la loro sicurezza e di garantire un allineamento rigoroso. Anche da questo nasce la scelta di condividere questo lavoro con la comunità di ricerca e di collaborare alla sperimentazione di o3 e o3-mini.