La società di sviluppo e ricerca sull’intelligenza artificiale OpenAI ha annunciato di aver addestrato una rete neurale denominata DALL-E (dalla fusione dei nomi dell’artista Salvador Dalí e del personaggio cinematografico WALL-E della Pixar) che è in grado di creare immagini partendo da didascalie di testo per una vasta gamma di concetti esprimibili in linguaggio naturale.
DALL-E è una versione da 12 miliardi di parametri di GPT-3, addestrata a generare immagini da descrizioni di testo utilizzando un dataset di coppie testo-immagine. OpenAI ha reso noto di aver scoperto che la rete neurale presenta un insieme di capacità diverse, tra cui la creazione di versioni antropomorfizzate di animali e oggetti, combinare concetti non correlati in modo plausibile, il rendering del testo e l’applicazione di trasformazioni alle immagini esistenti.
GPT-3, ha spiegato OpenAI, ha dimostrato che il linguaggio può essere usato per istruire una grande rete neurale ad eseguire una varietà di compiti di generazione del testo. Image GPT, a sua volta, ha mostrato che lo stesso tipo di rete neurale può essere usato anche per generare immagini ad alta fedeltà. La società di intelligenza artificiale ha ora esteso queste scoperte per mostrare come manipolare i concetti visivi attraverso il linguaggio sia ora un risultato a portata di mano.
OpenAI ha verificato che DALL-E è in grado di creare immagini plausibili per una grande varietà di frasi che esplorano la struttura compositiva del linguaggio e lo ha illustrato con una serie di immagini interattive.
Ma non è finita qui. OpenAI ha anche presentato un’altra rete neurale chiamata CLIP (Contrastive Language-Image Pre-training) che apprende in modo efficiente i concetti visivi del linguaggio naturale. La rete neurale CLIP può essere applicata, ha spiegato OpenAI, a qualsiasi benchmark di classificazione visiva fornendo semplicemente i nomi delle categorie visuali da riconoscere, in modo simile alle funzionalità “zero-shot” di GPT-2 e 3.
Sebbene l’apprendimento profondo abbia rivoluzionato la computer vision, gli approcci attuali hanno diversi problemi rilevanti, sottolinea OpenAI: i tipici dataset sono molto laboriosi e costosi da creare mentre allo stesso tempo si insegna solo una serie ristretta di concetti visivi; i modelli di visione standard funzionano bene in un solo e unico compito, e richiedono uno sforzo significativo per adattarsi a un nuovo task; inoltre, i modelli che funzionano bene sui benchmark hanno prestazioni deludenti negli stress test, gettando dubbi sull’intero approccio del deep learning alla computer vision.
La rete neurale introdotta da OpenAI mira ad affrontare questi problemi: è addestrata su una grande varietà di immagini con una grande varietà di supervisione del linguaggio naturale, che è abbondantemente disponibile su Internet.
Per progettazione, la rete può essere istruita in linguaggio naturale per eseguire una grande varietà di benchmark di classificazione, senza ottimizzare direttamente le prestazioni del benchmark, in modo simile alle capacità “zero-shot” di GPT-2 e GPT-3. Questo, per OpenAI, è un cambiamento fondamentale: non ottimizzando direttamente il benchmark, si dimostra che esso diventa molto più rappresentativo. Il sistema di OpenAI colma questo “robustness gap” fino al 75%, ha evidenziato la società.