Le voci dell’AI – Episodio 28: video sintetici multilingua

Ciao a tutti! Episodio 28 di Le Voci dell’AI.

La settimana scorsa vi ho fatto vedere e sentire la qualità straordinaria dei modelli di AI generativa per le immagini e per la voce e vi ho detto che se stavate aspettando il momento giusto per cominciare a esplorare soluzioni industriali in queste due aree, il momento è arrivato. Se avete perso l’episodio 27, vi consiglio vivamente di tornare indietro e dare un’occhiata.

Oggi rimaniamo sul tema, ma allarghiamo un po’ il nostro orizzonte e parliamo del livello di maturità raggiunto in un campo adiacente a quello dell’AI generativa per le immagini e per la voce.

Oggi parliamo di video sintetici multilingua, una tecnologia che rivoluzionerà l’industria dell’editoria, dell’educazione e dell’intrattenimento, aprendo le porte a opportunità di business senza precedenti.

Innanzitutto, capiamo che cosa sono i video sintetici multilingua e dove sta l’enorme complessità che l’AI generativa deve risolvere.

Un video sintetico è un video che mostra una o più scene che non sono mai state girate nel mondo reale, proprio come le immagini sintetiche generate da Stable Diffusion o Midjourney.

I video sintetici vengono generati a partire da un prompt, un’immagine che funge da ispirazione o un video esistente, e il modello di AI generativa deve produrre frame per frame le immagini sintetiche che comporranno il video. Questi video sintetici possono essere di qualunque tipo. Videoclip musicali dove l’AI viene usata per cambiare l’abbigliamento o l’acconciatura delle popstar, remake di vecchi film dove l’AI aiuta i creativi ad applicare il colore a pellicole in bianco e nero o ad aumentarne la risoluzione, spot pubblicitari dove l’AI ringiovanisce il viso della celebrità che promuove il prodotto di turno e così via.

Ma quando parliamo di video sintetici multilingua, di solito ci riferiamo a un particolare tipo di video di partenza in cui appare uno speaker che parla della sua cosa di fronte alla camera, proprio come questo video.

Un video sintetico multilingua, in questo contesto, è un video identico all’originale, ma parlato in una lingua diversa dalla lingua dello speaker, mai girato in quella lingua, dove però il movimento labiale dello speaker è perfettamente sincronizzato con la lingua in cui si vuole fare la traduzione.

Immaginate questo video con parlato originale in italiano rigenerato con parlato in inglese, francese, cinese, hindi eccetera, dove in ogni versione è impossibile dire che io non so parlare una parola di cinese, francese e così via.

Arrivare a una maturità soddisfacente per una tecnologia simile significherebbe arrivare a un punto nella storia dell’umanità, dove ogni video esistente diventa disponibile in ogni lingua esistente, aprendo infinite possibilità commerciali, non solo per il campo dell’editoria, ma anche per quello dell’educazione e ovviamente quello dell’intrattenimento.

Abbiamo già parlato di queste tecnologie nell’episodio 13 delle Voci dell’AI, quando vi ho raccontato di come l’agenzia pubblicitaria WPP ha fatto esattamente questa magia due anni fa per la superstar di Bollywood Shah Rukh Khan in una pubblicità di cioccolatini.

In quel caso, però, WPP ha usato un modello di AI generativa sviluppato apposta per lo scopo, con una quantità enorme di materiale dell’attore.

Il costo di una simile operazione è proibitivo per la stragrande maggioranza delle aziende nel mondo.

Quando parliamo di valutare la maturità dei modelli di degenerativa per video sintetici multilingua, quello che stiamo valutando in realtà è quanto bene questi modelli funzionano out of the box senza fine tuning e quanto velocemente producono risultati su scala industriale.

E qui entra in gioco la startup HeyGen.

Se avete visitato un social media network qualsiasi nelle ultime due settimane avete probabilmente visto una valanga di demo di entusiasti dell’AI usare una nuova tecnologia di HeyGen chiamata Video Translate, al momento disponibile in beta, che fa proprio il lavoro che abbiamo descritto un momento fa.

Per esempio una demo come questa: guardate quello che succede qui. È straordinario.

Per far funzionare questa cosa, il sistema di AI generativa deve coordinare una serie impressionante di modelli che fanno cose diverse. Riconoscimento facciale, riconoscimento vocale, clonazione vocale, traduzione, sintesi vocale e generazione di immagini di tipo image to image. E tutto tenendo conto che lingue diverse vengono pronunciate a velocità diverse, quindi accelerando o rallentando la sincronizzazione labiale per rimanere nella stessa unità di tempo. Come se non bastasse, questa magia deve accadere in pochissimi minuti e su scala industriale per diventare una soluzione viabile per le applicazioni aziendali.

Ora Heygen non è l’unica start up al mondo che offre questa tecnologia. Ce ne sono altre e per esperienza diretta posso dirvi che nessuna delle loro soluzioni funziona bene.

Infatti alcune soluzioni non funzionano affatto e sono a malapena dei prototipi lanciati sul mercato in fretta e furia per ottenere dei capitali di ventura.

Quindi se HeyGen ha risolto il problema come le demo suggeriscono, siamo a un momento straordinario nella storia. Per vedere se HeyGen funziona veramente, come nelle demo che circolano online, ho fatto una piccola prova traducendo la mia introduzione dell’episodio ventisette in inglese e in francese.

Per la traduzione in inglese, HeyGen ci offre due alternative: una versione che tenta di replicare il nostro tono di voce e il modo in cui pronunciamo le parole e una versione che invece usa una voce sintetica da catalogo.

In ogni caso, le voci sono generate dalla tecnologia di ElevenLabs, la stessa che vi ho fatto sentire nell’episodio ventisette.

Vediamo e sentiamo prima la versione in inglese che tenta di replicare la mia voce.

La settimana scorsa siamo scesi nel dettaglio e abbiamo visto come è possibile integrare l’intelligenza artificiale in un processo di automazione grazie ad una serie di nuovi strumenti che sono diventati disponibili sul mercato.

Ma la produzione di un output sintetico su scala industriale non ha particolarmente senso se la qualità di quell’output non è soddisfacente; quindi, oggi vi faccio vedere dove siamo arrivati in termini di qualità con i modelli di AI generativa, sia per la creazione di immagini che per la creazione di voci sintetiche.

Come potete vedere, il risultato è assolutamente impressionante, ma nemmeno lontanamente vicino alla qualità delle demo che avete visto circolare online. Innanzitutto, la voce sintetica non rispetta le tempistiche della voce originale. Poi il movimento labiale è solo parzialmente sincronizzato con la voce sintetica. Poi la porzione del mio viso, che è stata rigenerata per riprodurre il movimento labiale nella lingua desiderata, presenta una serie di artefatti digitali che rendono il video finale inutilizzabile in produzione.

E infine alcune delle parole pronunciate in inglese non sono quelle che ho detto in italiano, una traduzione piuttosto libera, direi.

Vediamo se le cose migliorano con la versione in inglese, ma con la voce sintetica che non tenta di simulare il mio tono e la mia pronuncia.

Direi peggio.

Okay, ultima prova. Vediamo che succede se traduciamo il video in una lingua più veloce e simile all’italiano come il francese.

Qui non posso commentare sulla qualità della traduzione, perché non parlo una parola di francese dalla scuola media, ma chiaramente ci sono ancora un sacco di problemi dal punto di vista della sincronizzazione labiale e della ricostruzione facciale.

HeyGen Video Translate è ancora in una fase di beta e al momento di registrare questo episodio, la versione gratuita del servizio ha una coda di quasi duecentomila video, che immagino la start up utilizzerà per fare un tuning ulteriore della ricostruzione facciale.

Quindi progresso fenomenale, ma siamo ancora lontani dalla maturità necessaria per l’applicazione industriale.

Qui la mia raccomandazione è: posticipate l’esplorazione.

Okay, ci fermiamo qui per questa settimana, come sempre, scrivetemi all’indirizzo di posta elettronica che trovate qui sotto con i vostri commenti, le domande e i suggerimenti per gli argomenti da trattare nei prossimi episodi.

Ciao!

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome