Dal MIT, il Massachusetts Institute of Technology, arriva un nuovo sviluppo nell’ambito della robotica, ricco di potenzialità. È stato sviluppato e illustrato sul sito dell’istituto da alcuni ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT.
I ricercatori del MIT lo presentano come uno sviluppo chiave in quest’area. Si tratta di un sistema che consente ai robot di ispezionare oggetti casuali. E di comprenderli visivamente, abbastanza da realizzare specifici compiti, senza averli mai visti prima e senza una guida umana.
In ambienti controllati quali le linee di assemblaggio i robot sono in grado da decenni di prendere in continuazione lo stesso oggetto. Progressi più recenti nella computer vision hanno consentito ai robot di eseguire distinzioni basilari tra oggetti.
Tuttavia, i sistemi robotici non sono ancora in grado di comprendere veramente le forme degli oggetti. La destrezza rimane uno skill tipicamente umano. Pur con i recenti progressi, i robot devono fare ancora molta strada in questa direzione.
Ora potrebbe però essere arrivato uno sviluppo chiave in tale ambito.
Il sistema Dense Object Nets del MIT
Il sistema è denominato Dense Object Nets (DON) e “vede” gli oggetti come collezioni di punti. Tali punti servono a realizzare una sorta di mappa visiva. Questo approccio consente ai robot di comprendere e manipolare meglio gli oggetti. E, cosa più importante, consente ai robot persino di raccoglierne uno specifico tra un mucchio di oggetti simili.
Il team vede potenziali applicazioni di questo sviluppo non solo negli impianti di produzione, ma anche nelle case. Un semplice esempio è questo: immaginare di dare al sistema robotico l’immagine di una casa in ordine. E, quindi, di farla pulire mentre si è al lavoro.
È anche degno di nota il fatto che nessuno dei dati è stato effettivamente etichettato dagli umani. Invece, il sistema è ciò che il team definisce “self-supervised”: non richiede alcuna supervisione umana.
Il sistema DON essenzialmente crea una serie di coordinate su un dato oggetto. Tali coordinate fungono come una sorta di roadmap visiva. Questa serve per dare al robot una migliore comprensione di ciò che deve afferrare e dove farlo.
Il robot è addestrato a considerare gli oggetti come una serie di punti costituenti un sistema di coordinate più grande. Può quindi mappare diversi punti insieme per visualizzare la forma tridimensionale di un oggetto. In modo simile a come le foto panoramiche vengono create unendo più foto.
Dopo il training, se si specifica un punto su un oggetto, il robot può scattare una foto di quell’oggetto. Dopodiché identificare e abbinare i punti per essere in grado di raccogliere l’oggetto proprio dal punto specificato.
Ad esempio, durante i test con diversi cappelli da baseball, DON ha potuto sceglierne uno specifico nonostante tutti i cappelli avessero disegni molto simili. E, oltretutto, non avendo mai visto prima le immagini dei cappelli, nel training.
Per il futuro, il team spera di migliorare il sistema in modo che possa svolgere compiti specifici con una comprensione più profonda degli oggetti corrispondenti. Ad esempio, come prendere un oggetto e spostarlo con l’obiettivo finale di mettere in ordine una scrivania.