Home Google DeepMind svela RT-2, il modello AI in grado di dirigere i...

Google DeepMind svela RT-2, il modello AI in grado di dirigere i robot

Google DeepMind ha presentato un nuovo progresso nella robotica che secondo l’azienda può avvicinarci a un futuro di robot utili nel mondo reale: Robotics Transformer 2, o RT-2, è un modello di visione-linguaggio-azione (VLA, vision-language-action) unico nel suo genere.

Si tratta di un modello Transformer-based e addestrato su testi e immagini provenienti dal web: RT-2, spiega Google DeepMind, può produrre direttamente azioni robotiche.

Proprio come i modelli linguistici vengono addestrati sul testo del web per apprendere idee e concetti generali, RT-2 trasferisce le conoscenze dai dati del web per informare il comportamento dei robot. In altre parole, sottolinea Google DeepMind, RT-2 può parlare la “lingua” dei robot.

La ricerca nel campo dei robot utili è sempre stata uno sforzo titanico, mette in evidenza Google, perché un robot in grado di svolgere compiti generici nel mondo deve essere in grado di gestire compiti complessi e astratti in ambienti altamente variabili, soprattutto se non li ha mai visti prima.

A differenza dei chatbot, i robot hanno bisogno di basarsi sul mondo reale e sulle loro capacità. Il loro addestramento non consiste solo nell’imparare tutto ciò che c’è da sapere – ad esempio – su una mela: come cresce, quali sono le sue proprietà fisiche o anche se si dice che una mela sia finita sulla testa di Sir Isaac Newton. Un robot deve essere in grado di riconoscere una mela nel suo contesto, distinguerla da una palla rossa, capirne l’aspetto e, soprattutto, saperla raccogliere.

Ciò richiede storicamente l’addestramento dei robot su miliardi di data point, in prima persona, su ogni singolo oggetto, ambiente, compito e situazione del mondo fisico: una prospettiva così lunga e costosa da renderla impraticabile per gli innovatori. L’apprendimento è un’impresa impegnativa, e lo è ancora di più per i robot.

RT-2

Un nuovo approccio con RT-2

I lavori più recenti – spiega Google DeepMind – hanno migliorato la capacità di ragionamento dei robot, consentendo loro di utilizzare anche il chain-of-thought prompting, un modo per analizzare i problemi in più fasi. L’introduzione di modelli di visione, come PaLM-E, ha aiutato i robot a comprendere meglio l’ambiente circostante. E RT-1 ha dimostrato che i Transformer, noti per la loro capacità di generalizzare le informazioni tra i sistemi, possono persino aiutare diversi tipi di robot a imparare gli uni dagli altri.

Finora, però, i robot funzionavano con complessi stack di sistemi, con sistemi di ragionamento di alto livello e sistemi di manipolazione di basso livello che comunicavano in modo imperfetto per far funzionare il robot. RT-2 elimina questa complessità e consente a un singolo modello non solo di eseguire i complessi ragionamenti visti nei modelli foundation, ma anche di produrre azioni robotiche. Soprattutto, dimostra che con una piccola quantità di dati di addestramento del robot, il sistema è in grado di trasferire i concetti incorporati nel linguaggio e nei dati di training della visione per dirigere le azioni del robot, anche per compiti che non è mai stato addestrato a svolgere.

Ad esempio, se si voleva che i sistemi precedenti fossero in grado di gettare via la spazzatura, bisognava addestrarli esplicitamente a identificare la spazzatura, a raccoglierla e a gettarla via. Poiché RT-2 è in grado di trasferire la conoscenza da un ampio corpus di dati web, ha già un’idea di cosa sia la spazzatura e può identificarla senza un addestramento esplicito.

Ha persino un’idea di come buttare la spazzatura, anche se non è mai stato addestrato a compiere questa azione. E si pensi alla natura astratta della spazzatura: quello che era un sacchetto di patatine o una buccia di banana diventa spazzatura dopo averli mangiati. L’RT-2 è in grado di capire questo aspetto grazie ai suoi dati di training vision-language e di eseguire il lavoro.

La capacità di RT-2 di trasferire le informazioni alle azioni è promettente per consentire ai robot di adattarsi più rapidamente a situazioni e ambienti nuovi, afferma Google DeepMind. Testando i modelli RT-2 in più di 6.000 prove robotiche, il team ha scoperto che RT-2 funzionava altrettanto bene del modello precedente, RT-1, sui compiti presenti nei dati di addestramento, o compiti “visti”. Oltre a questo, il modello RT-2 ha quasi raddoppiato le sue prestazioni su scenari nuovi e non visti, passando dal 32% di RT-1 al 62%.

In altre parole, con RT-2 i robot sono in grado di imparare come gli esseri umani, trasferendo i concetti appresi a nuove situazioni.

L’RT-2 secondo Google DeepMind non solo dimostra come i progressi dell’intelligenza artificiale si stiano rapidamente diffondendo nella robotica, ma mostra anche un’enorme promessa per i robot di uso più generale. Sebbene ci sia ancora un’enorme quantità di lavoro da fare per rendere i robot utili in ambienti incentrati sull’uomo, RT-2 secondo il team disvela un futuro entusiasmante per la robotica.

Maggiori informazioni sul modello sono disponibili nel blog di Google DeepMind.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche
css.php