OpenAI presenta Sora, un modello AI in grado di creare video realistici a partire da un prompt

Stiamo insegnando all’intelligenza artificiale a comprendere e simulare il mondo fisico in movimento, con l’obiettivo di addestrare modelli che aiutino le persone a risolvere problemi che richiedono l’interazione con il mondo reale.”, così OpenAI presenta Sora, il nuovo modello text-to-video, in grado di generare video della durata massima di un minuto, mantenendo la qualità visiva e l’aderenza alle richieste dell’utente.

Oggi Sora è a disposizione dei red teamers per valutare le aree critiche in cerca di danni o rischi, oltre che a una serie di visual artist, designer e registi per ottenere un feedback su come far progredire il modello in modo che sia più utile per i professionisti della creatività. Obiettivo di OpenAI è condividere i progressi della propria ricerca per iniziare a lavorare e ricevere feedback da persone esterne a OpenAI e per dare al pubblico un’idea delle capacità dell’intelligenza artificiale che si prospettano all’orizzonte.

Sora è in grado di generare scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati del soggetto e dello sfondo. Il modello comprende non solo ciò che l’utente ha chiesto nel prompt, ma anche come queste cose esistono nel mondo fisico.
Il modello ha una profonda comprensione del linguaggio, che gli consente di interpretare accuratamente i suggerimenti e di generare personaggi convincenti che esprimono forti emozioni.

Sora è anche in grado di creare inquadrature multiple all’interno di un singolo video generato che mantengono accuratamente i personaggi e lo stile visivo.

OpenAI ammette che il modello attuale presenta dei punti deboli, e ne mostra degli esempio. Può avere difficoltà a simulare accuratamente la fisica di una scena complessa e può non comprendere casi specifici di causa ed effetto. Ad esempio, una persona potrebbe dare un morso a un biscotto, ma in seguito il biscotto potrebbe non presentare il segno del morso. Il modello può anche confondere i dettagli spaziali di una richiesta, ad esempio confondendo la destra e la sinistra, e può avere difficoltà a descrivere con precisione gli eventi che si svolgono nel tempo, ad esempio seguendo una specifica traiettoria della telecamera.

Il prompt di questo video è: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.

In questo esempio, Sora non riesce a modellare la sedia come un oggetto rigido, il che porta a interazioni fisiche imprecise.

La sicurezza

Come per la produzione di immagini, vi sono due rischi intrinsechi nella produzione di video sintetici. Il primo è il tipo di contenuti che è possibile generare e i fini per i quali vengono generati. OpenAI annuncia che prima di rendere Sora disponibile nei prodotti OpenAI, verranno adottate diverse misure di sicurezza importanti, collaborando con red teamer ed esperti del settore in aree quali la disinformazione, i contenuti di odio e i pregiudizi, che testeranno il modello in modo contraddittorio. Il secondo rischio è quello derivante dalla produzione di contenuti fuorvianti o che falsificano la realtà. Per questo OpenAI sta  costruendo strumenti, come un classificatore di rilevamento, che può dire quando un video è stato generato da Sora, e ha in programma di includere i metadati C2PA (Coalition for Content Provenance and Authenticity) in futuro, se il modello sarà distribuito in un prodotto.

Ii metodi di sicurezza costruiti per i prodotti che utilizzano DALL-E 3, che sono applicabili anche a Sora.

Ad esempio, una volta inserito in un prodotto OpenAI, il classificatore di testo verificherà e rifiuterà i prompt che violano le policy di utilizzo, come quelle che richiedono violenza estrema, contenuti sessuali, immagini di odio, immagini di celebrità o la proprietà intellettuale di altri. Sono stati sviluppati robusti classificatori di immagini che vengono utilizzati per esaminare i fotogrammi di ogni video generato, per garantire che sia conforme alle politiche di utilizzo, prima che venga mostrato all’utente.

Coinvolgeremo responsabili politici, educatori e artisti di tutto il mondo per comprendere le loro preoccupazioni e identificare casi d’uso positivi per questa nuova tecnologia. Nonostante le ricerche e i test approfonditi, non possiamo prevedere tutti i modi in cui le persone utilizzeranno la nostra tecnologia, né tutti i modi in cui le persone ne abuseranno. Ecco perché crediamo che imparare dall’uso reale sia una componente fondamentale per creare e rilasciare nel tempo sistemi di IA sempre più sicuri.”, dichiara OpenAI.

Come funziona

Sora è un modello di diffusione che genera un video partendo da uno che sembra un rumore statico e lo trasforma gradualmente rimuovendo il rumore in più fasi.
Sora è in grado di generare interi video in una sola volta o di estendere i video generati per renderli più lunghi. Dando al modello la possibilità di prevedere molti fotogrammi alla volta, abbiamo risolto il difficile problema di garantire che un soggetto rimanga lo stesso anche quando esce temporaneamente dalla visuale.

Come i modelli GPT, Sora utilizza un’architettura a transformer, che permette di ottenere prestazioni superiori in termini di scalabilità.

Video e immagini sono rappresentati come collezioni di unità di dati più piccole, chiamate patch, ognuna delle quali è simile a un token in GPT. Unificando il modo in cui i dati vengono rappresentati, è possibile addestrare i transformer di diffusione su una gamma di dati visivi più ampia di quanto fosse possibile in precedenza, con durate, risoluzioni e rapporti di aspetto diversi.

Sora si basa sulla ricerca passata sui modelli DALL-E e GPT. Utilizza la tecnica di recaptioning di DALL-E 3, che prevede la generazione di didascalie altamente descrittive per i dati visivi di allenamento. Di conseguenza, il modello è in grado di seguire più fedelmente le istruzioni testuali dell’utente nel video generato.

Oltre ad essere in grado di generare un video solo da istruzioni testuali, il modello è in grado di prendere un’immagine fissa esistente e generare un video da essa, animando il contenuto dell’immagine con precisione e attenzione ai piccoli dettagli. Il modello può anche prendere un video esistente ed estenderlo o riempire i fotogrammi mancanti.

Sora funge da base per modelli in grado di comprendere e simulare il mondo reale, una capacità che riteniamo sarà un’importante pietra miliare per il raggiungimento dell’AGI (Artificial general intelligence).”, conclude l’annuncio di OpenAI.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome