Ciao a tutti, sono Vincenzo Lomonaco, ricercatore e docente all’Università di Pisa.
Nella puntata di oggi parliamo di un tema caldissimo in questi giorni e importantissimo nel contesto dell’intelligenza artificiale, nell’era dei grandi modelli generativi.
Parliamo di Neural Scaling Laws, le leggi che sembrano guidare la scalabilità e quindi il miglioramento delle soluzioni basate su generative training, come ChatGPT.
Ad oggi queste leggi empiriche cominciano a scricchiolare.
E forse questo l’inizio della fine del deep learning? Scopriamolo insieme in questa puntata di Le Voci dell’AI.
Le Scaling Laws descrivono il comportamento prevedibile di deep learming al crescere della quantità di dati, della capacità del modello, il numero di parametri e della potenza computazionale impiegata.
Osservazioni empiriche hanno dimostrato che l’errore di un modello, ad esempio di previsione o di generazione, decresce seguendo delle curve ben precise, man mano che aumentiamo questi fattori.
In sostanza, se si raddoppia la grandezza di un modello e si fornisce per esempio il doppio dei dati e della potenza di calcolo, la precisione del modello migliora in modo quantificabile.
Questi principi sono particolarmente rilevanti per modelli come ChatGPT, in cui l’espansione dei parametri dei dati migliora significativamente la qualità delle risposte e la capacità di generalizzare a situazioni non previste durante la fase di addestramento.
Le Scaling Laws offrono quindi una guida pratica pragmatica per progettare, implementare, creare modelli sempre più avanzati, ottimizzando l’investimento in risorse e delineando fino a che punto è utile aumentare, per esempio, i suoi parametri.
Quanto è utile ingrandire questi modelli a dismisura? Inoltre, comprendere queste leggi ci aiuta a stimare in anticipo le prestazioni dei modelli di grande scala, quindi contribuendo a una pianificazione efficace nello sviluppo delle nostre soluzioni ideali e orientando l’evoluzione di modelli sempre più potenti e intelligenti.
Queste leggi hanno guidato, per esempio OpenAI nello sviluppo di grandi modelli del linguaggio naturale, i Large Language Models. Sono state essenziali per raggiungere i risultati attuali. Seguendo queste leggi, OpenAI ha potuto ottimizzare l’espansione dei modelli investendo strategicamente in dati, dimensioni dei parametri e potenza computazionale per migliorare strategicamente le prestazioni.
Questo approccio ha permesso la creazione di modelli come ChatGPT basato su GPT 4, capaci di generare risposte sofisticate, di comprendere il linguaggio naturale in profondità anche sorprendente a volte, di risolvere compiti complessi.
Le Scaling Laws hanno quindi fornito una guida pratica per massimizzare l’efficienza degli investimenti, indicando fin dove spingere la capacità del modello per ottenere miglioramenti concreti.
Così OpenAI e altre aziende hanno potuto ottimizzare le risorse, accelerando lo sviluppo di Large Language Model sempre più performanti.
E questo metodo non ha solo potenziato la capacità di comprensione e generazione dei modelli, ma ha anche stabilito nuovi standard per l’intero settore, spingendo verso l’uso efficiente della scalabilità come fattore chiave per il progresso e per il raggiungimento di applicazioni di api sempre più avanzate e utili su larga scala.
In questa immagine vediamo una rappresentazione schematica delle scaling laws più importanti e di come si sono evolute negli ultimi anni a partire dal 2020.
Nel 2020 il team di ricerca di OpenAI pubblicò uno studio che stimolò enormemente la comunità di AI nella direzione di scalare modelli, invece di creare nuove soluzioni metodologiche, ma semplicemente scalarlo in termini di dati, computazione e numero di parametri via via sempre più grandi.
In particolare, questo studio suggeriva come l’aumento, banale se vogliamo, del numero di parametri del modello fosse più importante della qualità di dati utilizzata o del tempo di addestramento o la computazione utilizzata.
Due anni dopo, i ricercatori di Google, di IBM hanno rettificato tali osservazioni, suggerendo come sia in realtà più efficace ed efficiente mantenere un rapporto tra i dati, i token, utilizzati per l’addestramento e i parametri del modello predittivo da ottimizzare.
Questa legge è stata chiamata Chinchilla Scaling Law, dalla serie di modelli che è stata generata a partire da quest’ultima, ed è stata fondamentale e ha costituito l’ultimo progresso in questo senso.
Il 2022 e il 2023 hanno invece visto crescere la tendenza a rivalutare l’importanza della quantità e varietà qualità dei token di training e a prolungare significativamente l’addestramento di modelli.
Questo ha permesso la creazione di modelli molto più piccoli, ma altrettanto potenti e capaci.
Tuttavia, a questo punto ci si è imbattuti in un limite piuttosto importante che sta contribuendo a quello che è stato definito un vero e proprio rallentamento, uno slow down dei benefici dell’aumento dei tempi di addestramento, l’over training.
Stiamo letteralmente esaurendo i dati disponibili pubblicamente nel web che possiamo utilizzare per l’addestramento.
In questa immagine vediamo una proiezione dell’uso di token di addestramento, quindi i dati nel tempo.
Sull’asse delle x abbiamo gli anni di riferimento dal 2020 al 2034, in questo caso si tratta di una proiezione; sull’asse delle Y, il numero di token utilizzati da 100 miliardi a quadrilioni.
La linea verde in questo grafico rappresenterebbe il numero di token generati dagli esseri umani pubblicamente utilizzabile.
Mentre in blu vediamo una retta, o meglio un un’interpolazione rispetto al numero di token di training utilizzati dai modelli più recenti, vediamo che se proviamo a proiettare questa curva negli anni a venire, seguendo leggi di stabilità di oggi, le pratiche che utilizziamo oggi di addestramento, nell’arco di pochi anni arriveremo a utilizzare più dell’80% dei dati disponibili e che rappresenta in realtà la qualità maggiore in nostro possesso e che determina direttamente la qualità del modello generativo risultante.
Ecco, tornando all’immagine precedente, questo è uno dei motivi più significativi per il passaggio a quelle che vengono definite oggi leggi di scalabilità neurale per l’inferenza, ossia leggi che non riguardano più l’addestramento del modello, ma di come è possibile aumentare la computazione disponibile durante l’utilizzo del modello stesso in inferenza per migliorarne le capacità.
In una delle recenti puntate di Le Voci dell’AI abbiamo parlato infatti del nuovo modello di OpenAI Strawberry o1 e di come la Chain of Thoughts sia effettivamente fondamentale per migliorare le capacità native di un Large Language Model.
Qui vediamo come effettivamente questo approccio stia diventando l’unico modo per continuare a migliorare le prestazioni di questi modelli nel futuro prossimo.
Noam Brown, un ricercatore di OpenAI che ha lavorato su o1, ha recentemente sottolineato infatti in una conferenza a San Francisco che far riflettere un bot per appena 20 secondi in una mano di poker, per esempio, ha dato lo stesso miglioramento di prestazioni che si otterrebbe aumentando il modello di 100.000 volte e addestrando per 100.000 volte più a lungo.
Quindi evidenziando come l’inferenza costituisca una dimensione davvero importantissima nel concetto di scalabilità almeno quanto il numero di parametri, il tempo di addestramento e l’ammontare di dati utilizzati.
In questa puntata abbiamo discusso delle Neuro Scaling Laws, del perché sono importanti e come queste siano state essenzialmente alla base della grande rivoluzione dei Generative Pretrained Model – GPT per il linguaggio naturale, popolarizzate da OpenAI con lo straordinario impatto di ChatGPT.
Tuttavia, recenti studi hanno evidenziato come scalare solo i dati di training, il numero di parametri oggi non sia più sufficiente a garantire avanzamenti benefici significativi in termini di prestazioni e capacità.
In particolare abbiamo discusso di come aumentare la disponibilità computazionale durante l’inferenza sembra possa essere una direzione di crescente interesse, anche se non è chiaro se e quanto il concetto stesso di scalabilità lineare e di questi modelli generativi possa durare nel tempo.
Ci aspettiamo comunque significative migliorie dettate dalla pura ingegnerizzazione di questi sistemi ancora molto e mutui dal punto di vista tecnologico e commerciale.
Ciao e alla prossima puntata di Le Voci dell’AI!