Meta ha annunciato due nuove pietre miliari della ricerca dell’azienda sull’intelligenza artificiale generativa: Emu Video ed Emu Edit.
Questi due nuovi modelli si basano sul precedente lavoro fatto dalla società di Mark Zuckerberg sulle immagini e sui video, per fornire nuovi risultati che l’azienda definisce sorprendenti, nella generazione text-to-video diffusion-based di alta qualità e nell’editing controllato delle immagini utilizzando solo istruzioni testuali.
Il nuovo modello text-to-video Emu Video – spiega Meta – sfrutta il modello di generazione di immagini Emu dell’azienda e può rispondere a input di solo testo, di sola immagine o di testo e immagine combinati per generare video di alta qualità.
Utilizza un approccio fattorizzato che non solo permette di addestrare i modelli di AI generativa in modo più efficiente, ma produce anche video di qualità superiore.
I risultati di questo modello sono stati preferiti dal 96% degli intervistati rispetto a quello precedente in base alla qualità dei risultati nelle valutazioni umane, sottolinea Meta.
Per quanto riguarda Emu Edit, questo nuovo modello è in grado di eseguire editing free-form tramite istruzioni di testo. A differenza di molti modelli esistenti, afferma Meta, Emu Edit segue con precisione le istruzioni e garantisce che vengano modificati solo gli elementi specificati dell’immagine di input, lasciando inalterate le aree non correlate alle istruzioni. Ciò consente un editing e un’iterazione più potenti e affidabili.
Per addestrare il modello, Meta ha sviluppato un dataset contenente 10 milioni di campioni sintetizzati di immagini di input, istruzioni e target di output: il più grande set di dati del suo genere fino ad oggi, sostiene l’azienda. Come risultato, il modello si è dimostrato un nuovo “stato dell’arte” nelle valutazioni qualitative e quantitative per una serie di task di editing delle immagini.
Sebbene questo lavoro sia ancora una ricerca di base, Meta ci vede un potenziale entusiasmante per i casi futuri in cui questa tecnologia migliorerà il modo in cui gli utenti condividono, comunicano ed esprimono se stessi in modo creativo nella famiglia di app della società americana.
Ulteriori informazioni sono disponibili nel blog di Meta dedicato all’AI.