Ciao a tutti, sono Vincenzo Lomonaco ricercatore e docente all’Università di Pisa.
Nella puntata di oggi non possiamo non parlare di DeepSeek-R1, il modello linguistico e di ragionamento open source della start-up cinese omonima DeepSeek, che ha sconvolto il mondo e il mercato dell’intelligenza artificiale la scorsa settimana.
Di cosa si tratta e perché può essere interpretato come una pietra miliare nel l’ingegnerizzazione di soluzioni di intelligenza artificiale alla portata di tutti?
Quali sono poi le innovazioni tecnologiche fondamentali che ne hanno determinato il successo? Scopriamolo insieme in questa puntata di Le Voci dell’AI.
Oggi parliamo di DeepSeek-R1, un modello di AI sviluppato dalla startup cinese DeepSeek che ha recentemente scosso il mondo tecnologico. Lanciato a gennaio 2025, DeepSeek-R1 è un modello open source progettato per compiti di ragionamento complessi come la risoluzione di problemi matematici oppure di programmazione.
Ciò che lo rende davvero rivoluzionario è la sua efficienza è stato sviluppato infatti, con un budget di soli 6 milioni di dollari, almeno a detta di DeepSeek, una frazione dei costi sostenuti da giganti come OpenAI per modelli con capacità simili.
Nonostante le restrizioni statunitensi sull’esportazione di microchip verso la Cina di DeepSeek, che è riuscita a utilizzare circa 2000 GPU Nvidia, dimostrando anche la capacità della Cina di aggirare tali limitazioni.
Il rilascio di DeepSeek-R1 ha avuto un impatto davvero immediato, e le azioni di grandi aziende tecnologiche, in particolare quelle coinvolte nel mondo dell’AI, hanno subito un calo significativo, con Nvidia che ha perso 600 miliardi di dollari, pensate, in un solo giorno.
Questo evento ha sollevato preoccupazioni anche sulla supremazia statunitense nell’intelligenza artificiale e ha evidenziato l’emergere della Cina come potenza nel settore.
Inoltre, essendo open source, DeepSeek-R1 consente a chiunque di scaricarlo e utilizzarlo, potenzialmente democratizzato lo sviluppo dell’AI e accelerando il progresso tecnologico in questa direzione.
Va comunque sottolineato che i risultati descritti, e anche che racconteremo oggi nell’articolo scientifico di riferimento, non sono ancora stati riprodotti da terze parti, rendendo ancora da verificare, diciamo, le conclusioni che possiamo trarre in merito.
DeepSeek-R1 ha raggiunto questo successo grazie a una serie di innovazioni tecnologiche che ne hanno determinato le prestazioni e l’efficienza.
Una delle principali innovazioni è l’adozione dell’architettura Mixture of Experts, commistione di esperti, che consente di attivare solo una parte dei parametri del modello durante l’elaborazione, riducendo significativamente i costi computazionali e migliorando l’efficienza energetica.
Questa tecnica permette al modello di utilizzare, per esempio, 37 miliardi di parametri per ogni passaggio rispetto ai 100 miliardi o più dei modelli tradizionali.
Inoltre, DeepSeek-R1, come abbiamo già accennato, è stato sviluppato con un modello open source, rendendolo accessibile a una vasta comunità di sviluppatori e ricercatori e questa apertura ha facilitato la collaborazione e l’innovazione, permettendo a terze parti di migliorare, adattare il modello alle proprie esigenze.
Un ulteriore elemento distintivo è l’ottimizzazione dell’uso dell’hardware.
Nonostante le restrizioni sulle esportazioni dei chip verso la Cina DeepSeek è riuscita a sviluppare il proprio modello utilizzando “solo” 2.000 GPU anche non di ultima generazione, una frazione comunque delle risorse tipicamente impiegate da altri modelli avanzati.
Infine, l’implementazione di tecniche di apprendimento per rinforzo – reinforcement learning – ha migliorato le capacità di ragionamento autonomo del modello, rendendolo particolarmente efficace in compiti complessi come la risoluzione di problemi matematici e di programmazione.
Queste innovazioni hanno permesso tutte insieme, a DeepSeek-R1 di offrire prestazioni elevate a costi ridotti, sfidando i modelli occidentali closed source, quindi chiusi e privati e democratizzato l’accesso a queste tecnologie avanzate di IA.
Ma vediamo l’innovativo processo di addestramento che ha determinato l’abbattimento più significativo dei costi.
Nell’immagine vediamo come l’addestramento di DeepSeek-R1 si articola in quattro passaggi chiave, ognuno dei quali contribuisce in modo significativo e proporzionale alla creazione di un modello avanzato e competitivo.
Il primo passaggio è la fase chiamata di Cold Start, durante la quale vengono raccolti i dati iniziali necessari per avviare l’addestramento del modello.
Questa fase è cruciale perché stabilisce la base su cui il modello poi verrà costruito e ottimizzato, assicurando quindi che i dati siano di alta qualità e rappresentativi del dominio di applicazione. In questo caso, esempi di processi di ragionamento umani.
Il secondo passaggio è una fase di raffinamento al ragionamento in cui il modello viene addestrato utilizzando tecniche di apprendimento con rinforzo. Questo passaggio è il più innovativo, ispetto allo stato dell’arte.
Permette al modello di migliorare le sue capacità di ragionamento autonomamente, tramite tentativi, ma senza una supervisione diretta umana.
La terza fase è quella di action sampling e di fine tuning supervisionato, che prevede l’utilizzo di dati specifici per affinare ulteriormente il modello attraverso il clonaggio comportamentale, la messa a punto supervisionata.
In questa fase il modello viene quindi addestrato a replicare comportamenti desiderati, spesso umani, a migliorare le sue prestazioni in compiti più specifici.
Infine, il quarto passaggio riguarda un ulteriore passo di raffinamento, simile a quello che abbiamo già discusso, introdotto nella puntata 74 di Le Voci dell’AI, in cui il modello viene guidato da feedback umani.
Complessivamente, questi quattro passaggi chiave rappresentano un processo più strutturato e metodico per l’addestramento di modelli di queste dimensioni e garantiscono effettivamente che risultato sia robusto, adattabile, anche altamente performante.
Questa immagine mostra invece un grafico a barre che confronta i prezzi stimati per l’elaborazione di 1.000.000 di token, quindi pezzettini di una parola o di una frase di input e output su diversi modelli linguistici di frontiera.
Le barre sono divise in due colori viola chiaro per i costi relativi al processamento dell’input, Il prompt, la nostra domanda e viola scuro, per l’appunto, la generazione della risposta.
I modelli confrontati sono Grok di X/Twitter, ChatGPT-o1 mini di OpenAI, Gemini di Google, NovaPro di Amazon ed infine R1 di DeepSeek che abbiamo appena discusso oggi.
Grok ha un costo totale di circa 4 $ per l’input e 13 $ per l’output, ChatGPT-o1 mini di circa 3 $ per l’input e 12 $ per l’output.
Gemini 1.5 Pro ha un costo di circa 0,50 $ per l’input e 6 $ per l’output e così via.
Quello che vediamo è che DeepSeek in questa panoramica con R1 ha un costo molto basso di circa 0,10 $ per l’input e 2,5 $ per l’auto, rendendolo davvero uno dei migliori compromessi in termini di qualità e prezzo.
Quindi questo grafico ci mostra come non solo DeepSeek rappresenti un passo in avanti significativo per i costi legati all’addestramento di modelli così performanti, ma anche rispetto al loro semplice utilizzo.
Bene, in questa puntata abbiamo discusso del recente rilascio di DeepSeek R1, un modello linguistico e di ragionamento open source che raggiunge livelli di performance paragonabili ai più grandi e costosi modelli di frontiera come OpenAi-o1 a una frazione del loro costo.
Questo rappresenta un passo in avanti davvero significativo per la democratizzazione di queste tecnologie, grazie da un lato a innovativi processi metodologici legati all’addestramento, ma anche alla massiccia ingegnerizzazione del calcolo per sfruttare al massimo l’hardware a disposizione.
Nel futuro non possiamo che aspettarci un ulteriore abbassamento dei costi per la produzione di soluzioni analoghe e un’adozione di massa in ogni ambito della nostra sfera digitale delle stesse.
Ciao! Alla prossima puntata di Le Voci dell’AI!