Le voci dell’AI – Episodio 30: ChatGPT impara a parlare. Perché è importante?

Ciao a tutti! Siamo arrivati all’episodio numero 30 di Le Voci dell’AI.

Nell’episodio precedente vi ho offerto una prospettiva diversa con cui guardare cosa sta facendo OpenAI.

Mentre la maggior parte dei partecipanti del mercato è convinta che OpenAI stia costruendo un assistente sintetico super intelligente, è in realtà possibile che la start up stia costruendo il sistema operativo del futuro e questa differenza, anche se sottile, per alcuni cambia moltissimo in termini di impatto sul mercato e giustifica certi investimenti in una maniera del tutto nuova.

Se avete perso l’episodio della settimana scorsa, vi consiglio di tornare indietro e dare un’occhiata perché, puntuale come un orologio, una settimana dopo il nostro video è arrivata la conferma della prospettiva che abbiamo discusso proprio da uno dei cofondatori di OpenAI, Andrej Karpathy, nel suo post su X.

Andrej, che è stato anche direttore dell’AI in Tesla, abbraccia completamente l’idea di ChatGPT come un sistema operativo di nuova generazione e ci ricorda che siamo agli albori di una nuova era e che questo nuovo OS sta muovendo i primissimi passi questa prospettiva.

La conferma da parte di Andrej può aiutarci a chiarire, seppure indirettamente, le motivazioni della mossa della settimana scorsa di Amazon, che ha annunciato un investimento di quattro miliardi di dollari in Anthropic, l’azienda, che è considerata la più vicina di tutte a offrire un modello di intelligenza artificiale in grado di uguagliare le capacità di GPT-4.

In una intervista con Bloomberg, il Ceo di AWS Adam Selipsky ha rivelato che l’azienda si aspetta una crescita esplosiva trainata dall’uso dell’AI generativa, ma magari anche qui c’è di più in ballo. È possibile che Amazon veda nell’AI generativa lo stesso potenziale che abbiamo suggerito nell’episodio della settimana scorsa e che quindi voglia assicurarsi un accesso privilegiato alla tecnologia rispetto ai concorrenti.

Non dimenticatevi che Anthropic ha già ricevuto un investimento enorme di trecento milioni di dollari da Google poco più di sei mesi fa, in febbraio. Se Amazon ha deciso di surclassare quell’investimento, significa che l’azienda vede una posta in ballo più grande di quello che sembra.

A prima vista, come ho detto la settimana scorsa, forse è tempo che le aziende che offrono sistemi operativi e i loro partner comincino a ripensare la propria strategia.

Ma in realtà non voglio parlarvi di questo oggi. Oggi preferisco parlarvi di una novità introdotta la settimana scorsa, che riguarda ancora OpenAI e che diventerà enormemente importante nel tempo, la voce di ChatGPT.

Per quando vedrete questo video, sicuramente avrete letto decine di articoli sul fatto che finalmente OpenAI ha riattivato la capacità di ChatGPT di cercare le risposte su Internet e ha introdotto la capacità di analizzare le immagini sottoposte dagli utenti come contesto per rispondere alle loro domande.

La visione di ChatGPT che dipende da un modello chiamato GPT-V, dove la V sta per vision, in realtà non è nuova. È stata anticipata mesi fa dall’azienda, ma non è stata resa disponibile fino ad ora per vari motivi. L’ipotesi più accreditata è che OpenAI non avesse abbastanza potenza di calcolo per servire le richieste di tutto il pianeta, ma anche possibile che l’azienda abbia voluto implementare un sistema di sicurezza più robusto per evitare che gli utenti utilizzino questa nuova capacità in maniera inappropriata.

Quindi due settimane fa abbiamo visto ChatGPT diventare capace di generare immagini, grazie all’integrazione con il nuovo DALL-E 3.

La settimana scorsa abbiamo visto ChatGPT diventare capace di guardare e cercare su internet, tutte funzionalità che vi ho detto sarebbero arrivate già nell’episodio 15 di Le Voci dell’AI.

Queste funzionalità rendono ChatGPT un cosiddetto sistema AI multimodale, ma la modalità più importante di tutte è quella di cui si parla di meno: la voce.

ChatGPT adesso può parlare con cinque voci diverse, che probabilmente un giorno diventeranno customizzabili in base alle preferenze dell’utente.

Ma perché la voce è così incredibilmente importante? Perché la voce ha un impatto emotivo sull’utente che nessun’altra espressione può uguagliare. Almeno per il momento.

Noi esseri umani non creiamo un legame emotivo con le interfacce grafiche giacché l’apparenza è troppo diversa da come siamo fatti, ma creiamo un legame emotivo con un’entità che parla come noi.

È il cosiddetto effetto Eliza di cui abbiamo parlato nell’episodio 6.

E se sviluppiamo un legame emotivo forte con ChatGPT, ecco che tutto quello che dice ChatGPT ha un impatto enorme sulla nostra vita.

Se nelle proprie risposte ChatGPT suggerisce di usare il prodotto X invece di Y o se suggerisce di andare al ristorante A invece di B, quella raccomandazione viene percepita in una maniera più profonda che la raccomandazione che percepiamo, per esempio, quando leggiamo i risultati di una ricerca su Google e ovviamente se la raccomandazione di ChatGPT è frutto di una sponsorizzazione, ecco che la voce della nostra AI acquisisce un valore spropositato, avendo la capacità di influenzarci in una maniera più profonda della pubblicità che esiste oggi.

E già da quando siamo molto giovani abbiamo già visto che Microsoft non ha perso un secondo nell’inserire post sponsorizzati nella versione GPT-4, che è parte di Bing, e quindi aspettate di rivedere la stessa cosa adesso che ChatGPT ha una voce tutta sua.

L’impatto di un’AI in grado di parlare è sottostimato perché Siri, Alexa e Google Assistant sono stati tutto fuorché impressionanti per anni.

Ma la nostra reazione a un’AI che è in grado di parlare e di rispondere nella stessa maniera in cui risponde GPT-4 è tutta un’altra storia.

Ora non c’è solo il risvolto distopico.

In tutto questo non dobbiamo arrivare alla conclusione che solo perché ChatGPT è in grado di parlare la voce sarà usata esclusivamente allo scopo di manipolarci. Ci sono anche delle applicazioni estremamente positive che vale la pena considerare.

Per esempio, immaginate l’enorme opportunità per chi ha certi tipi di disabilità. Queste persone oggi possono contare su GPT-4 per comunicare in una maniera che è infinitamente più efficace della migliore interfaccia vocale mai sviluppata. Per queste persone la voce di ChatGPT può veramente elevare la qualità della vita.

E poi, ovviamente, ci sono infinite opportunità di business.

Un’AI in grado di parlare è un insegnante infinitamente più interessante da seguire o un dottore infinitamente più facile da comprendere o un rappresentante del servizio clienti infinitamente più accessibile e piacevole.

La voce dell’AI è la qualità più importante su cui scommettere a lungo termine.

Okay, ci fermiamo qui per questa settimana. Come sempre, scrivetemi all’indirizzo di posta elettronica che trovate qui sotto con i vostri commenti, le domande, i suggerimenti per gli argomenti da trattare nei prossimi episodi. Ciao!

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome