Le Voci dell’AI – Episodio 68: OpenAI o1: ragionare con modelli generativi

Ciao a tutti! Sono Vincenzo Lomonaco, ricercatore all’Università di Pisa.

Nella puntata di oggi non possiamo che parlare di un tema caldissimo al momento, nel contesto dell’intelligenza artificiale.

Parliamo del recente rilascio di OpenAI o1, una serie di modelli linguistici generativi che sono capaci di effettuare ragionamenti complessi.

Qual è lo stato dell’arte in questa direzione? Cosa aspettarci per il futuro? Scopriamolo insieme in questa puntata di Le Voci dell’AI.

Il problema del reasoning, del ragionamento nell’intelligenza artificiale riguarda la capacità dei sistemi di eseguire ragionamenti complessi e prendere decisioni logiche.

Molti algoritmi faticano a gestire problemi che richiedono processi di ragionamento multi step e deduzioni strutturate.

Per affrontare questa sfida, infatti, vengono impiegate spesso metodologie basate su linguaggi logici e probabilistici. Linguaggi come la logica del primo ordine si basano su regole formali che garantiscono quindi coerenza e la validità nei processi logici di pensiero.

Mentre le tecniche probabilistiche utilizzano il linguaggio delle probabilità per gestire l’incertezza e quantificarla, quindi aggiornare le nostre credenze, prevedere, prevedere esiti in scenari complessi. Questi approcci permettono quindi di migliorare la capacità delle macchine delle nostre soluzioni di AI. E soprattutto di renderle capaci di affrontare problemi più complessi che necessitano di decisioni informate, ma soprattutto di poterlo fare con delle garanzie di correttezza.

OpenAI o1, nome in codice Strawberry, rappresenta una serie di modelli linguistici avanzati sviluppati da OpenAI con il focus specifico sull’ottimizzazione delle capacità di ragionamento.

Tradizionalmente, infatti, i modelli linguistici di grandi dimensioni, i Large Language Model, eccellono nella generazione di testo e nella comprensione contestuale, ma spesso mostrano carenze significative nei ragionamenti complessi e logici, specialmente per problemi con una sequenza di passaggi numerosa che richiedono anche una coerenza e una struttura del ragionamento.

La serie o1 punta a colmare questo gap concentrandosi sul migliorare le capacità di pensiero critico e deduttivo.

Il ragionamento è infatti cruciale perché molte applicazioni reali richiedono non solo risposte grammaticalmente e sintatticamente corrette, ma anche la capacità di processare informazioni in modo logico e consequenziale, di prendere decisioni basate su prove o simulare un pensiero multi step.

Senza un ragionamento solido i modelli fondazionali rischiano di generare risposte fluenti ma incoerenti o non pertinenti, soprattutto in contesti e domini complessi come la risoluzione di problemi matematici, la programmazione, il coding, l’analisi scientifica, il dialogo scientifico e molto altro.

Migliorare queste capacità, in ultima analisi, consente a o1 di affrontare con maggiore efficacia scenari pratici che richiedono quindi coerenza logica e riflessione approfondita, espandendo quindi l’utilità dei modelli oltre la semplice generazione linguistica e quindi il supporto diciamo personale verso una vera assistenza cognitiva e decisionale.

Questo passo quindi è fondamentale per rendere tutti i large language models più affidabili e versatili.

I ricercatori di OpenAI hanno quindi addestrato questi modelli a dedicare più tempo per riflettere sui problemi prima di rispondere, proprio come farebbe un umano attraverso l’addestramento, l’apprendimento automatico.

Essi infatti imparano a perfezionare il loro processo di pensiero multi step, provando diverse strategie e riconoscendo i propri errori nei test presentati nella loro dichiarazione stampa il loro blog post.

I ricercatori, infatti, spiegano come il modello di punta della serie o1, o1-preview, abbia ottenuto risultati simili a quelli di studenti di dottorato, PhD students, in compiti di riferimento impegnativi in fisica, chimica e biologia.

Inoltre, si è anche rilevato come il modello eccella specialmente in matematica e programmazione.

Pensate, in un esame di qualificazione per le Olimpiadi Internazionali di Matematica, mentre GPT 4.0 sa risolvere correttamente solo il 13% dei problemi posti all’esame, il modello di ragionamento o1 ha ottenuto l’83%, piazzandosi tra i 500 studenti più promettenti in America.

Ma come funziona esattamente questa serie di modelli? Beh, nessuno lo sa con certezza, essendo un modello privato e a sorgente chiuso, ma similmente a come una persona potrebbe pensare a lungo prima di rispondere a una domanda difficile, o1 utilizza una catena di ragionamenti o chain of thoughts quando tenta di risolvere un problema.

Attraverso l’apprendimento con rinforzo, il reinforcement learning, o1 impara a perfezionare la sua catena di ragionamento e a migliorare le strategie che utilizza. Impara a riconoscere e correggere propri errori. Impara soprattutto a scomporre i passaggi complessi in altri più semplici. Impara a provare un approccio diverso quando quello provato precedentemente non funziona. Questo processo migliora quindi notevolmente le capacità di ragionamento del modello.

Sul sito ufficiale di OpenAI relativo alla serie o1 trovate molti esempi della catena di ragionamenti del modello su diversi problemi difficili di matematica, scienza, programmazione e molto altro.

Va sottolineato che ad oggi il modello può essere testato solo a pagamento e che esso consuma realtà fino a tre volte quanto consumi GPT per il suo utilizzo.

In questa immagine vediamo rappresentate le prestazioni di o1 rispetto a GPT-4o su diversi domini e benchmark di riferimento.

In azzurro vengono riportate per ogni compito specifico le performance di GPT4-o, mentre in arancione le migliorie introdotte da o1.

Notiamo come in domini molto formali come la matematica o la fisica o1 riesca a offrire i suoi vantaggi più significativi.

In questa immagine invece vediamo le preferenze di utenti che hanno avuto l’opportunità di usare o1e la percentuale di questi che preferisce usarlo rispetto a GPT-4o, però in funzione del compito che hanno da svolgere. Quindi sulle ordinate abbiamo il nome del compito, mentre sulle ascisse la percentuale di preferibilità di o1 rispetto a GPT-4o.

Notiamo che a parte compiti di natura più generica che riguardano il possesso di competenze meno specializzate, GPT-4o risulta preferibile, mentre via via che il dominio diventa più piccolo e specifico come i calcoli matematici o la programmazione, 01 risulti di gran lunga più preferibile, arrivando a soddisfare maggiormente fino al 70% degli utenti.

Bene, in questa puntata abbiamo discusso brevemente di una nuova serie di modelli di OpenAI volti a colmare una criticità, una lacuna importante dei modelli generativi di grandi dimensioni, la capacità di ragionamento.

In particolare, questi modelli, utilizzando la tecnica della chain of thoughts, della catena di pensieri, ossia spezzando il problema in sottoproblemi e imparando come meglio comporre soluzioni intermedie, essi siano in grado di risolvere compiti complessi di ragionamento come mai prima d’ora, con modelli linguistici basati sull’apprendimento automatico.

Nonostante l’entusiasmo risultante dall’introduzione di questi modelli, non è ancora chiaro quanto essi siano affidabili ed efficienti nel generare conclusioni a partire da ragionamenti logici complessi.

Da un lato, infatti, non abbiamo mai nessuna garanzia che il processo logico impiegato sia corretto, né se esiste una soluzione ad un quesito essa possa essere trovata.

Dall’altro canto, pur ricevendo una soluzione, sarebbe spesso necessaria un esperto di dominio per comprenderne e verificarne la validità, riducendo di fatti l’utilità del modello.

Sicuramente siamo piacevolmente colpiti da questi progressi che rendono sempre più usabili questi modelli fondazionali conversazionali e ce ne aspettiamo ancora di significativi con l’aggiornamento della serie o1 nel futuro, dove funzionalità come il ragionamento su dati multimodali e l’accesso al web per generare risposte ancora più accurate ci riusciranno sicuramente a sorprendere nuovamente.

Ciao! Alla prossima puntata di Le Voci dell’AI!

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome