Le Voci dell’AI – Episodio 59: SIMA: un agente di intelligenza artificiale generalista per ambienti virtuali 3D

Ciao a tutti! Sono Vincenzo Lomonaco, ricercatore all’Università di Pisa.

Nella puntata di oggi parliamo di SIMA (Scalable Instructable Multiworld Agent), un agente di intelligenza artificiale generalista per ambienti virtuali 3D addestrato mediante rinforzo.

Di cosa si tratta? Perché costituisce un risultato particolarmente interessante? Scopriamolo insieme in questa puntata di Le Voci dell’AI.

Recentemente un folto team di Google DeepMind ha pubblicato uno studio empirico molto interessante riguardo lo sviluppo di un agente intelligente generalista, capace di risolvere compiti all’interno di un ambiente virtuale solamente mediante l’ausilio di istruzioni testuali.

Lo studio è particolarmente interessante perché l’agente è in grado di generalizzare queste capacità anche su compiti e giochi mai visti durante la fase di addestramento.

Questo tipo di sviluppi ci fa letteralmente sognare sulle possibilità future di questi sistemi, magari in applicazioni nel mondo reale  dove possiamo pensare a un futuro con degli assistenti non più solo virtuali che possano assisterci nei compiti più disparati e tediosi della quotidianità, senza la necessità di essere addestrati squisitamente per ogni caso specifico e con il minimo intervento da parte nostra, a livello di supervisione.

In questo video vediamo alcuni esempi dell’uso di SIMA in alcuni videogiochi molto diversi tra loro.

Per esempio, nella prima immagine in alto a sinistra potremmo istruire il nostro agente mediante il comando «Drive car» – guida l’automobile: vediamo come SIMA sia in grado autonomamente di redigere la sequenza di comandi che consentono l’esecuzione di questa azione nell’ambiente virtuale.

Molto interessante, non trovate? Ma facciamo un passo indietro.

Come è stato possibile raggiungere questi risultati, direi sorprendenti? La tecnica principale su cui si basa questo agente è l’apprendimento con rinforzoreinforcement learning, in concomitanza con l’uso di modelli multimodali capaci di processare testo e immagini.

L’apprendimento con rinforzo è una tecnica dell’apprendimento automatico, del machine learning, in cui un agente impara a prendere decisioni ottimali interagendo con un ambiente dinamico attraverso un processo di trial and error.

L’agente osserva lo stato attuale dell’ambiente e seleziona un’azione basata su una politica, la quale può essere deterministica o probabilistica.

Dopo aver eseguito l’azione, l’ambiente fornisce un feedback o una ricompensa positiva o negativa che l’agente utilizza per aggiornare la sua politica e migliorare le sue decisioni future.

Il ciclo continua con l’agente che osserva il nuovo stato risultante dall’azione precedente, seleziona una nuova azione e riceve ulteriori ricompense con l’obiettivo finale di massimizzare la somma delle ricompense a lungo termine.

Questo approccio è ispirato ai principi del condizionamento operante della psicologia comportamentale e si applica a problemi complessi come il controllo robotico, i giochi strategici e l’ottimizzazione dei processi industriali, per esempio.

Storicamente il reinforcement learning è stato sempre uno dei cavalli di battaglia di Google DeepMind e ha portato a contributi notevolissimi come Google AlphaFold, che abbiamo discusso in una precedente puntata, per la predizione della struttura proteica o come AlphaZero per raggiungere capacità addirittura sovrumane nel gioco del GO.

Ecco, in questo caso si fa un ulteriore passo in avanti nell’integrazione dell’apprendimento con rinforzo con modelli fondazionali addestrati per meglio interpretare gli aspetti visuali di un ambiente e per comprendere meglio le istruzioni testuali dell’utente, correlandole a un particolare comportamento o meglio sequenza di azioni da eseguire per soddisfare l’obiettivo funzionale richiesto.

In questa immagine vediamo l’architettura principale di SIMA.

Come vedete sulla sinistra l’utente ha accesso all’input visivo, sostanzialmente lo stato del gioco, del mondo e può fornire un’istruzione testuale oppure vocale con trascrizione automatica per l’esecuzione di un determinato task o compito.

SIMA quindi prende questi input e genera una sequenza di azioni che cambiano lo stato del mondo e che danno la possibilità all’utente di operare in questo schema in modo continuo e iterativo, fino al completamento delle sue mansioni.

Sulla destra vediamo un grafico esploso delle componenti interne di SIMA  e quello che vediamo è che SIMA è composto da diversi sottomoduli, in primis un encoder testuale che gestisce il prompt dell’utente e le istruzioni dell’utente, da un encoder visivo per il frame corrente e da un encoder video per tenere traccia del contesto dinamico dell’ambiente.

Ognuno di questi sotto-moduli pre-addestrati, dunque, produce  rappresentazioni semantiche di alto livello ad esempio gli oggetti contenuti del frame, che possono essere aggregate dal modulo in blu basato su un’architettura Transformer.

Infine, SIMA, sulla base di questa  rappresentazione aggregata, è in grado di definire le azioni vera e propria una sequenza di input di mouse e tastiera in questo caso.

È importante notare quindi che l’innovazione di SIMA riguarda l’uso di grandi modelli pre addestrati come encoder e la loro aggregazione mediante meccanismi di attention – attenzionamento.

L’uso di modelli pre-addestrati limita il numero di esempi e feedback richiesti, quelli che dobbiamo avere dall’esterno per imparare il comportamento che l’agente deve tenere, dandoci grandi vantaggi in termini sia di generalizzazione sia di efficienza.

I ricercatori di DeepMind  hanno infine valutato le capacità di SIMA di seguire le istruzioni per completare quasi 1.500 compiti di gioco unici, in parte utilizzando giudici umani.

In questa immagine vediamo le performance relative rispetto ad agenti SIMA specializzati, ossia addestrati e valutati per seguire le istruzioni all’interno di un singolo ambiente.

Quello che notiamo nella prima colonna è che addestrare SIMA su tanti giochi diversi migliora significativamente le prestazioni quasi raddoppiandole, e che usare SIMA in ambienti mai visti prima durante la fase di training riduce solo di poco le prestazioni dell’agente ad indicare una grande capacità di generalizzazione del sistema.

Infine,  non dare nessuna istruzione testuale a SIMA comporta un netto peggioramento delle prestazioni, come ci aspetteremmo.

Non si tratta infatti di un sistema pensato per essere completamente autonomo.

Questo studio rappresenta anche un forte cambiamento di tendenza nel mondo dell’apprendimento con rinforzo.

L’approccio principale in questa comunità è infatti sempre stato quello end to end, ossia un apprendimento che senza conoscenza di dominio né altri componenti pre-addestrati, sia in grado di apprendere una policy, ossia una funzione, una politica che, a partire dai pixel, possa produrre una sequenza di azioni per massimizzare la ricompensa futura attesa.

Bene, per concludere, in questa puntata abbiamo discusso di SIMA, un agente di intelligenza artificiale generalista per l’esecuzione di compiti in maniera semiautonoma in ambienti virtuali tridimensionali SIMA e basato su Large Language and Vision models ed è capace di generalizzare su ambienti mai visti prima.

Nel futuro ci possiamo sicuramente aspettare agenti che siano in grado di fare lo stesso  nel mondo reale, quello fisico, anche se sarà necessario un ulteriore passo in avanti per limitare ancor più il numero di tentativi feedback necessari dal mondo esterno per arrivare a delle soluzioni realisticamente applicabili in ogni contesto.

Ciao! Alla prossima puntata di Le Voci dell’AI!

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome