Ciao a tutti! Episodio ventuno di “Le Voci dell’AI”.
La settimana scorsa, nell’episodio venti, abbiamo parlato di uno dei concetti più affascinanti introdotto dall’AI generativa: il fatto che improvvisamente chiunque è in grado di spiegare a un computer come eseguire un certo compito utilizzando il linguaggio di tutti i giorni.
La capacità di istruire una macchina su come eseguire un compito è quello che chiamiamo programmazione e fino a oggi è stata una capacità limitata a un gruppo ristretto di esseri umani, gli ingegneri del software, che hanno la pazienza e la competenza per imparare un linguaggio, o più di un linguaggio di programmazione. Questo cambiamento ha implicazioni profonde e oggi non sappiamo ancora dove ci porterà questa democratizzazione dell’interazione con le macchine.
Oggi parliamo di un altro concetto introdotto dall’AI generativa, che ha implicazioni profonde e scenari futuri incerti.
L’AI ci forza a competere con noi stessi, non come gli atleti che danno tutto per migliorarsi costantemente. La competizione di cui parliamo qui è letterale.
Per capire meglio questo concetto, vi racconto due storie.
La prima storia è quella di un doppiatore inglese, Greg Marston. Questo signore ha prestato la propria voce ad alcuni dei brand più famosi del mondo per oltre venticinque anni.
E quella voce è stata usata per spot pubblicitari, documentari, messaggi aziendali, audiolibri e così via.
Nel 2005, più di un decennio prima dell’avvento dell’AI generativa, il signor Marston viene pagato da IBM per registrare la propria voce per un navigatore satellitare e il signor Marston vende i diritti per usare la propria voce a IBM per diciotto anni. E questi diritti permettono a IBM di vendere la voce del doppiatore a chiunque. E questo chiunque può usare la voce del signor Marston per qualunque scopo commerciale.
Il chiunque della situazione è la start-up Revoicer, una delle tante start-up di intelligenza artificiale che oggi offre la possibilità di generare voci sintetiche che possono essere usate in videogame, spot commerciali, programmi radiofonici e così via.
Se avete provato la cosiddetta tecnologia text to speech negli ultimi venti anni, la vostra esperienza è stata quella di una voce sintetica che suona robotica, maldestra, orribile da ascoltare e che non passerà mai per quella di un essere umano.
Ma nell’ultimo anno l’AI generativa ha fatto passi da gigante anche sul fronte della voce e oggi la voce sintetica è praticamente indistinguibile da quella umana.
Per dare a tutti un’idea di quanto è potente questa tecnologia, a gennaio ho creato una puntata pilota di un fantomatico podcast chiamato Fake Show. Le due voci che sentite in questo programma e le immagini sono sintetiche. Nessuna persona ha pronunciato quelle frasi; l’unica cosa non sintetica è il testo delle battute che ho scritto personalmente. Fake Show è parte delle attività di ricerca e sviluppo che svolgo normalmente.
Per creare questa puntata pilota, non ho usato la tecnologia di Revoicer o quella di un concorrente, ma un modello di AI generativa di altissima qualità che è accessibile a tutti.
Per il training del proprio modello di AI la start-up Revoicer ha bisogno, come tutte le altre, di una quantità enorme di audio parlato. Per ottenerlo, almeno in questa particolare storia, Revoicer usa un servizio di text to speech di IBM, che a sua volta usa la voce del nostro doppiatore inglese.
E così, pagando appena venti dollari per un milione di caratteri di testo parlato, Revoicer clona la voce del signor Marston e la vende ai propri clienti.
Per chiudere il cerchio, i clienti di Revoicer cominciano a offrire la voce clonata dal signor Marston per servizi di doppiaggio professionale.
A questo punto un’azienda qualsiasi che necessiti di un doppiaggio, si guarda intorno e scopre che può utilizzare la voce del signor Marston o la voce del signor Marston.
Una è la voce originale dell’attore in carne e ossa. L’altra è il clone della stessa voce, a una frazione del costo della voce originale, disponibile in qualsiasi momento e per qualunque progetto, incluse frodi telefoniche e pubblicità generata dalle AI.
Il doppiatore della nostra storia scopre il proprio clone per caso e improvvisamente si ritrova a competere con sé stesso tra gli stessi clienti.
La seconda storia che vi racconto è quella di un artista inglese chiamato Dean Samed. Dean Samed è un esperto in ritocco fotografico e creazione di immagini digitali. Negli anni ha caricato oltre duemila immagini nel catalogo online Adobe Stock.
Qualche settimana fa Adobe ha lanciato il proprio programma di generazione di immagini Firefly, che è in grado di competere con i sistemi di AI generativa di Stability AI, Midjourney e OpenAI.
A differenza di questi sistemi, Adobe si vanta di avere messo in piedi un meccanismo che non viola il diritto d’autore come sono accusati di fare gli altri tre.
E questo un meccanismo, dice Adobe, è più onesto perché include da principio un modo per compensare gli artisti che hanno contribuito le immagini usate per fare il training del modello di Firefly.
Il personaggio della nostra seconda storia, Dean, però, racconta di non essere mai stato contattato da Adobe e di non aver mai avuto la possibilità di bloccare l’uso delle proprie immagini per il training di Firefly.
The @Adobe Firefly announcement states they 'ethically' sourced their data from AdobeStock.
I'm a major AdobeStock Contributor, I DID NOT CONSENT TO THIS!!
A truly cynical company that hates its contributors and subscribers.
— Dean Samed (@DeanSamed) March 22, 2023
Al contrario, proprio come il doppiatore inglese della storia precedente, Dean ha scoperto che un certo prompt inserito in Firefly genera foto incredibilmente simili a quelle che lui ha collezionato negli anni, visitando edifici abbandonati in lungo e in largo negli Stati Uniti.
Dean dice: Adobe sta usando la nostra proprietà intellettuale per creare contenuti che competono con noi sul mercato.
Questa non è l’occasione giusta per entrare nel merito della legge sul diritto d’autore applicata alle AI generative. È un tema complesso che richiede più tempo di quello che abbiamo a disposizione per ogni episodio delle voci dell’AI.
Quello che conta è che cominciamo a vedere un tema ricorrente. La realizzazione da parte di alcuni individui che l’AI generativa ci mette in competizione con noi stessi in una maniera letterale.
Al momento questo è un problema che comincia a diventare sentito dai cosiddetti creatori, ma molte altre categorie ne faranno l’esperienza nel prossimo futuro.
E quindi che succede se il nostro lavoro, volontariamente o involontariamente, diventa materiale per il training dei nostri cloni digitali? Che succede se questi cloni, anziché moltiplicare le nostre capacità produttive, vengono usati contro di noi, per ridurre il costo del lavoro a delle cifre che non supportano il costo della vita nella città dove abbiamo deciso di vivere?
Possiamo considerare un modo di lavorare completamente diverso dove quello che produciamo viene sì clonato, ma è protetto come proprietà intellettuale e compensato con il pagamento di diritti d’autore? E se sì, chi vorrà pagare il diritto d’autore per il modo in cui Alessandro racconta le sue storie in video? Secondo me nessuno, e su questa nota dolente ci fermiamo qui per questa settimana.
Come sempre scrivetemi i vostri commenti, le domande e i suggerimenti per gli argomenti da trattare nei prossimi episodi.
Ciao!