Ciao a tutti, sono Vincenzo Lomonaco ricercatore all’Università di Pisa.
Nella puntata di oggi parliamo di un tema molto interessante nel contesto dell’intelligenza artificiale e della robotica.
Come possiamo utilizzare modelli fondazionali multimodali per migliorare la capacità dei nostri robot di interagire col mondo, di risolvere i compiti più disparati? Qual è lo stato dell’arte in questa direzione? Scopriamolo insieme in questa puntata di Le Voci dell’AI.
Nelle puntate precedenti abbiamo molto discusso degli interessantissimi sviluppi di AI degli ultimi anni nella costruzione di modelli fondazionali multimodali che, a fronte di un addestramento automatico su un insieme di dati molto vasto raccolto principalmente dal web, siano in grado di risolvere compiti diversi e molto complessi, senza esplicita supervisione da parte di umani esperti.
Questi modelli sono effettivamente modelli generativi, cioè dei modelli predittivi che sono addestrati squisitamente per generare dei contenuti in funzione e a completamento di un input parziale.
L’esempio classico è quello dei Large Language Model, che data in input una domanda, per esempio, generano la risposta più plausibile, quindi la sequenza di caratteri che a livello puramente statistico, sulla base di quanto scritto già nel web, possa risultare una correlazione significativa.
I più recenti sviluppi di questi modelli fondazionali sono spesso basati su due modalità principali, il linguaggio e la visione, e ci si prospetta in futuro di aggiungere via via più modalità per offrire un contesto più completo a queste soluzioni per la generazione multimodale di contenuti via via più allineati alla nostra realtà e alle nostre necessità.
Modelli come Gemini, ChatGPT e Copilot vengono poi ulteriormente raffinati tramite meccanismi di apprendimento con rinforzo per meglio aderire a degli standard culturali e sociali e per offrire maggiori garanzie funzionali e una interoperabilità tramite chat testuali, conversazioni testuali di fatto, divenendo dei veri e propri agenti conversazionali.
Ecco, possiamo utilizzare questi modelli in un contesto robotico? Certamente sì.
Le prime evidenze suggeriscono come, tramite questo approccio, sia molto più semplice avere robot che sono in grado, sono capaci non solo di interagire più naturalmente con gli uomini, ma anche risolvere un numero di compiti più ampio e diversificato rispetto agli approcci tradizionali in cui un robot era capace di risolvere solo pochi compiti in maniera piuttosto efficiente.
Si pensi ad esempio al montaggio di una automobile in un processo di produzione industriale.
Le applicazioni in cui si è dimostrato già un grande potenziale, come potremmo aspettarci, includono principalmente gli aspetti di interazione conversazionale uomo-macchina.
Questa settimana, tuttavia, il team di robotica di Google DeepMind ha mostrato un altro possibile e interessantissimo scenario applicativo: la navigazione.
In un articolo intitolato “Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs”, il team illustra come, utilizzando Google Gemini, in particolare la versione 1.5, però, sia stata possibile insegnare a un robot a rispondere a comandi vocali e a muoversi all’interno di un ufficio.
In una serie di video rilasciati dai ricercatori di DeepMind si apre con un “OK robot” in stile assistente intelligente prima di chiedere al sistema di eseguire diverse attività in uno spazio ufficio o forse meglio, un capannone industriale.
E in questo video vediamo un robot domestico in azione.
Un dipendente Google chiede al robot di portarlo da qualche parte per poter disegnare liberamente.
Il robot risponde ok, indossando come vedete, un allegro papillon giallo.
E aggiunge “Dammi 1 minuto, sto pensando con Gemini”.
Il robot, quindi, dopo qualche secondo guida l’essere umano verso una grande lavagna bianca, dove spiega di essere arrivato a destinazione e di aver completato il suo compito.
Ecco, è interessante notare come per il compito in questione, il robot sia stato in grado di comprendere innanzitutto la necessità e il contesto operativo in cui si trovava, per esempio, la posizione all’interno dell’ufficio per delineare il percorso migliore per aiutare l’uomo a completare un suo obiettivo funzionale.
Questa attività non è affatto banale perché richiede una serie di abilità interpretative multimodali e anche attuative e sarebbe impensabile poter sviluppare senza l’uso di un modello fondazionale.
Recentemente l’azienda Figure ha presentato una dimostrazione davvero eccezionale del suo umanoide Figure 01, ingegnerizzato mediante l’utilizzo di ChatGPT, quindi in collaborazione con OpenAI, oltre che altre metodologie classiche di AI e di controllo robotico.
In questo video vediamo chiaramente il robot in questione in un contesto domestico e come sia in grado di descrivere quello che vede intorno a sé.
Prendere decisioni basate sul buon senso – common sense – e frutto di ragionamenti complessi.
Per esempio, suggerisce addirittura nell’esempio la dimostrazione, come i piatti e bicchieri nel lavandino possano essere spostati nello scolapiatti sulla sinistra senza essere mai stato istruito a riguardo di questa necessità, di questa possibilità.
Infine, una volta operate delle azioni è anche in grado di spiegarne razionalmente, almeno all’apparenza, il perché.
In questa immagine vediamo le componenti principali che rendono possibile questo tipo di interazione.
In primis un modello speech-to-text che sia in grado di tradurre in tempo reale quanto viene comunicato a livello verbale al robot congiuntamente al testo trascritto.
ChatGPT, il modello di OpenAI, riceve in ingresso il flusso video proveniente dalle camere a bordo.
Sulla base di questo contesto multimodale, Il modello di OpenAI è in grado di generare trascrizioni di risposta che vengono poi convertite in audio con un ulteriore modulo, ma anche in azioni da intraprendere fisicamente per il robot.
Queste azioni di alto livello vengono gestite da soluzioni di AI custom, non necessariamente basate su apprendimento automatico, che raffinano l’azione più generale decisa dal modello di OpenAI e la raffinano, la spezzettano in una sequenza di azioni più di basso livello, fino al controllo dei movimenti di ogni giunto che articola, ad esempio, il movimento di un braccio robotico.
Questo per raccogliere, ad esempio, un oggetto dal lavandino.
Il risultato è impressionante, non trovate? Ma la robotica non rappresenta solamente l’ultima frontiera applicativa di questi modelli generativi di fondazione AI.
Essa rappresenta anche un ulteriore leva per migliorarne la qualità.
Infatti, quello di cui necessiteranno sempre di più questi modelli generativi di AI di grandissime dimensioni sono proprio i nuovi dati multimodali raccolti in contesti dinamici e applicativi che per sua natura il web non può possedere.
È noto infatti che il web, sebbene in costante espansione, è stato già abbondantemente esaurito in termini di potenzialità e dati che questi modelli possono utilizzare per il loro addestramento.
Recuperare nuovi dati attraverso un’interazione diretta immersa nella realtà darà loro la possibilità di comprendere meglio il mondo stesso con i suoi nessi causali e in relazione alle loro azioni esplicite in un ambiente nel quale sono effettivamente immersi.
Questo attraverso un processo continuo e iterativo di apprendimento, come avviene per noi esseri umani.
Bene, in questa puntata abbiamo discusso dell’interessante applicazione di modelli fondazionali nella robotica e di come questo stia aprendo nuovissime frontiere applicative verso la creazione di robot generalisti che possano aiutarci nelle nostre mansioni quotidiane o lavorative, realizzando essenzialmente fisicamente quello che abbiamo già a livello di assistenza, virtù.
Quanto siamo distanti dal concetto di un robot in ogni casa? Nessuno lo sa, ma non credo ci sia più alcun dubbio che questo sarà possibile nel futuro prossimo.
Ciao! Alla prossima puntata di Le Voci dell’AI!