Le voci dell’AI – Episodio 27: Immagini e audio con l’AI generativa. Da Midjourney a Stable Diffusion XL; da ElevenLabs a Coqui

Ciao a tutti! Questo è l’episodio 27 di Le voci dell’AI.

La settimana scorsa siamo scesi nel dettaglio e abbiamo visto come è possibile integrare l’intelligenza artificiale in un processo di automazione grazie a una serie di nuovi strumenti che sono diventati disponibili sul mercato, ma la produzione di un output sintetico su scala industriale non ha particolarmente senso se la qualità di quell’output non è soddisfacente.

Quindi oggi vi faccio vedere dove siamo arrivati in termini di qualità con i modelli di AI generativa, sia per la creazione di immagini sia per la creazione di voci sintetiche. Cominciamo dai modelli per la creazione di immagini, i cosiddetti diffusion model.

Come ho menzionato più volte in questo appuntamento settimanale, il diffusion model che produce le immagini più piacevoli dal punto di vista estetico con uno sforzo minimo è Midjourney. L’enorme semplificazione nella creazione di immagini offerta da Midjourney ci costringe però a un compromesso. È difficile deviare dallo stile inconfondibile di quel modello e certe immagini sono veramente ardue da ottenere; in più, ma questo è un problema che rimane temporaneo, per usare Midjourney siamo costretti a imparare a usare anche un sistema di chat online chiamato Discord, che lascia molti utenti disorientati a causa di un’interfaccia utente caotica.

Quando vogliamo la massima flessibilità nella generazione di immagini sintetiche, la scelta definitiva ricade sul modello open chiamato Stable Diffusion, sviluppato da Stability AI. Storicamente Stable Diffusion ha sempre prodotto immagini qualitativamente peggiori di Midjourney, in parte perché per usare questo modello è necessaria una lunghissima fase di apprendimento: ci sono decine di parametri da configurare e per farlo è necessario capire come ogni parametro influenza la generazione dell’immagine; in parte perché Stable Diffusion è sempre stato un modello di fondazione che non ha passato una robusta fase di fine tuning prima di essere rilasciato.

La strategia di business di Stability AI si basa sull’assunto che le aziende di tutto il mondo vogliano pagare un servizio di consulenza per ottenere una versione di Stable Diffusion in grado di produrre immagini eccezionali su certi particolari soggetti protetti da copyright.

Pensate, ad esempio, a Disney. Immaginate che Disney voglia creare nuove scene per i propri personaggi senza l’uso di un artista umano, grazie all’aiuto dell’AI generativa, magari per testare una particolare idea prima di investire seriamente le risorse necessarie per realizzarla o magari per produrre un film di animazione in un anno invece che in quattro.

Qualunque sia la ragione che spinge Disney, nel nostro esempio, a considerare l’AI generativa, l’azienda deve trovare un modo per fare il fine tuning di un modello di fondazione con il materiale che viene dai propri archivi, senza correre il rischio che quel materiale venga divulgato e riutilizzato senza permesso.

La scelta più sicura, almeno per il momento, è Stable Diffusion e quindi Disney probabilmente contatta Stability AI per collaborare sul fine tuning di Stable Diffusion.

Il problema di questo approccio è che Stable Diffusion può essere percepito come un modello di fondazione inferiore dalle aziende che a quel punto non chiamano affatto Stability AI e invece portano il proprio business altrove o posticipano completamente qualunque attività legata alle AI generative.

A dimostrare il vero potenziale di Stable Diffusion ci ha pensato quella porzione della comunità di intelligenza artificiale che è più focalizzata sulle arti grafiche.

Negli ultimi nove mesi questa comunità ha rilasciato una serie impressionanti di versioni di Stable Diffusion che sono state ottimizzate per produrre immagini di qualità eccezionale grazie al fine tuning eseguito da questo o quel membro della comunità.

C’è un problema però.

Questi fine tuning di Stable Diffusion, focalizzati su questo o quel tipo di immagine, non vanno praticamente mai nella direzione che serve alle aziende e a volte vanno nella direzione opposta e quindi, anche se questi fine tuning artigianali hanno dimostrato cosa Stable Diffusion può fare, c’è ancora parecchio scetticismo.

Per ovviare a tutto questo Stability AI ha modificato la propria strategia rilasciando un modello di fondazione che è stato ufficialmente ottimizzato attraverso il fine tuning dell’azienda.

Questo modello si chiama Stable Diffusion XL.

A differenza delle versioni precedenti, Stable Diffusion XL è in grado di produrre immagini di alta qualità sufficienti per permettere alle aziende di cominciare ad esplorare delle applicazioni industriali serie, ma c’è di più.

Ancora una volta la comunità internazionale ha preso in mano Stable Diffusion XL e ha cominciato a rilasciare una serie di versioni che hanno passato un’ulteriore fase di fine tuning. Queste versioni speciali di Stable Diffusion XL oggi producono immagini eccezionali che non lasciano più nessun dubbio sul potenziale del modello.

Vi faccio vedere alcune di queste immagini che ho generato recentemente.

Quindi, se state pensando all’AI generativa per la creazione di immagini digitali dei vostri prodotti protetti da diritto d’autore, il momento è arrivato per cominciare ad esplorare le possibilità offerte da questa tecnologia straordinaria.

Okay, spostiamoci nel mondo dei modelli di AI generativa per le voci sintetiche.

Nei primissimi episodi di Voci dell’AI vi ho fatto sentire alcune delle voci più realistiche che è possibile generare grazie a una serie di modelli aperti. Già un anno fa questi modelli producevano voci sintetiche indistinguibili dalle voci umane. Il problema di questi modelli, però è che sono incredibilmente lenti nella generazione e impossibili da controllare in termini di intonazione e carica emotiva. Anche se la qualità delle voci è altissima, è sempre stato impossibile per un’azienda generare del testo parlato in un tempo ragionevole e soprattutto rispettando delle scadenze.

Bene, a un anno di distanza, vediamo oggi arrivare sul mercato la seconda generazione di questi modelli di AI generativa. Le tre aziende principali che offrono servizi basati su questi modelli si chiamano ElevenLabs, PlayHT e Coqui.

La prima, ElevenLabs, ha rilasciato il proprio modello, la seconda, PlayHT, ha annunciato il proprio modello, ma è ancora in una fase di beta. E la terza, Coqui? Beh, la terza dovrebbe aver fatto qualcosa per il giorno in cui vedrete questo video. se non l’ha ancora fatto, aspettatevi qualcosa a brevissimo.

La qualità di questi nuovi modelli è straordinaria e la velocità del processo di generazione è perfettamente compatibile con le esigenze di un’azienda. In più, alcuni di questi nuovi modelli ci danno finalmente la possibilità di esprimere alcune emozioni rendendo il parlato generato più vivace e interessante.

Per farvi capire il livello a cui siamo arrivati, vi faccio sentire una clip di alcuni secondi. Questa clip viene da un esperimento che ho fatto la settimana scorsa per i lettori della mia newsletter sull’AI in lingua inglese, Synthetic Work. La scorsa settimana ho creato una versione completamente audio della free edition di Synthetic Work con la tecnologia di Eleven Labs. Trenta minuti di parlato che a fatica sono distinguibili dalla voce umana. Sentite qua.

Anche qui, se state pensando di utilizzare voci sintetiche per applicazioni commerciali, il momento di esplorare quello che si può fare con queste tecnologie è finalmente arrivato.

Andate e sperimentate.

Okay, ci fermiamo qui per questa settimana. Come sempre. scrivetemi all’indirizzo di posta elettronica che trovate qui sotto con i vostri commenti, le domande e i suggerimenti per gli argomenti da trattare nei prossimi episodi. Ciao!

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome