Tra le numerose interessanti novità che OpenAI ha rilasciato nelle ultime settimane per ChatGPT, tra cui la più rilevante è forse la funzione search derivata da SearchGPT, c’è la disponibilità in Europa della modalità voce avanzata.
La Voice mode, la modalità vocale, non è certo una novità in sé per il chatbot basato su intelligenza artificiale di OpenAI: quella che è nuova è la Advanced voice mode.
Rispetto alla voce standard, in cui il processo di interazione vocale passa attraverso una trascrizione in testo prima che il messaggio sia inviato al modello, la voce avanzata è nativamente multimodale: sfrutta le capacità audio native del modello GPT-4o.
Per questo motivo – anche se la voce standard utilizza anch’essa GPT-4o, oltre a GPT-4o mini – la Advanced voice mode offre conversazioni con la voce in tempo reale che risultano più naturali, che supportano anche aspetti comunicativi non verbali e che sono in grado di rispondere con “emozioni”.
La voce avanzata è ora disponibile (o in fase di rilascio) per gli utenti Plus e Team nelle app mobili per iOS e Android, nonché come anteprima mensile per gli utenti Free, sempre nelle app per dispositivi mobili. I nostri esempi si basano sull’uso di un iPhone con l’app ChatGPT per iOS.
Per iniziare una conversazione vocale nell’app mobile di ChatGPT, innanzitutto avviamo una nuova chat e poi facciamo tap – nella casella di testo del prompt, sulla parte destra – sul pulsante Voce, quello con l’icona di un’onda sonora, di fianco all’icona del microfono.
La finestra della chat lascia il posto a una schermata con una sfera azzurra al centro, che rappresenta la modalità vocale di ChatGPT. Prima della sfera azzurra, potrebbe per qualche istante essere visualizzata una sfera nera (o bianca su sfondo nero, se l’app usa lo schema colori scuro). Questi colori hanno un significato: quando la sfera è nera (o bianca) significa che è attiva la modalità voce standard (perché quella avanzata ancora non è disponibile). La sfera azzurra indica invece che stiamo usando la voce avanzata.
La prima volta che usiamo la modalità vocale, ChatGPT potrebbe chiederci di selezionare una voce. Possiamo scegliere una voce diversa in qualsiasi momento successivo. Possiamo farlo toccando l’icona delle impostazioni, nell’angolo in alto a destra nella schermata della chat vocale.
Nella schermata Scegli una voce, potremo scorrere tra le voci disponibili, ascoltando un’anteprima per ciascuna di esse. Ce ne sono nove disponibili. Queste sono le descrizioni che fornisce OpenAI:
- Spruce – Calma e assertiva
- Breeze – Vivace e sincera
- Ember – Sicura e ottimista
- Vale – Brillante e curiosa
- Maple – Allegra e sincera
- Cove – Composta e diretta
- Juniper – Aperta e ottimista
- Arbor – Disinvolta e versatile
- Sol – Capace e rilassata
Già da queste anteprime possiamo cogliere il carattere più “umano” della voce avanzata di ChatGPT. Quando abbiamo scelto quella che preferiamo, facciamo tap su Fatto (se non abbiamo selezionato una voce diversa da quella già attiva) oppure Avvia nuova chat (se la voce selezionata è diversa da quella attualmente attiva). Infatti, non si può cambiare voce rimanendo nella stessa chat: per usare una voce diversa, dobbiamo avviare una nuova chat.
Ora, dopo aver selezionato la voce avanzata che preferiamo, e con la sfera animata azzurra “in ascolto”, possiamo porre con la voce la nostra domanda a ChatGPT.
Possiamo sperimentare, oltre che con i contenuti del prompt vocale, anche nel chiedere uno specifico stile espressivo. Ad esempio, potremmo chiedere: “Spiega cos’è l’intelligenza artificiale con termini adatti a ragazzi in età scolastica”, o, meglio ancora, “Spiega cos’è l’intelligenza artificiale con termini e con uno stile comunicativo adatti a ragazzi in età scolastica”. Poi, potremmo provare: “Spiega cos’è l’intelligenza artificiale con termini e con uno stile comunicativo adatto all’amministratore delegato di un’azienda”. Noteremo come non solo i contenuti, ma anche il tono del discorso sarà diverso.
Oppure, con un esempio giocoso: “Raccontami una barzelletta con un tono ilare e scherzoso”; dopodiché: “Raccontami una barzelletta con un tono drammatico, da opera teatrale tragica”. Oltre che nel tono e nella presentazione della sua risposta, la voce avanzata di ChatGPT è in grado di cogliere elementi non verbali anche nel modo in cui parliamo quando poniamo le domande all’AI. Ciò abilita delle interazioni vocali con il chatbot AI molto più naturali e più simili a una conversazione con una persona.
Un’ulteriore novità è che ora, dopo una interazione vocale con ChatGPT, possiamo condividere il clip, toccando l’icona della condivisione che è posizionata di fianco a quella delle impostazioni della voce.
Nella schermata Condividi clip, possiamo ascoltare l’anteprima della conversazione. La timeline che raffigura l’onda sonora consente di spostare il cursore di riproduzione, per andare avanti e indietro nel clip, così come di ritagliare lo spezzone da condividere, trascinando le due maniglie ai lati.
Quando siamo pronti, tocchiamo il pulsante Condividi. Dopo un certo periodo di elaborazione dell’audio, ChatGPT presenta le opzioni di condivisione nel consueto pannello di iOS. Effettuata la scelta, l’app provvederà a eseguire l’esportazione del clip video.
Una cosa che abbiamo notato è che il volume della voce di ChatGPT tra le varie schermate – ad esempio quelle descritte finora: quella della chat, quella di selezione della voce e quella di condivisione del clip video – può avere livelli diversi. Quindi, passando da una all’altra, potrebbe alzarsi e abbassarsi il volume della voce.
Nella chat vocale, ChatPT è sempre in ascolto: tuttavia, mentre portiamo avanti una conversazione vocale con l’app e abbiamo bisogno di una pausa, possiamo disattivare (e successivamente riattivare) l’audio della nostra voce toccando l’icona del microfono, nell’angolo in basso a sinistra della schermata.
Con il tasto con l’icona “x” possiamo invece chiudere la chat vocale. ChatGPT inserisce la trascrizione testuale nella finestra della chat; tuttavia, questa non sempre coincide in tutto e per tutto con la conversazione che abbiamo avuto a voce. Ciò è confermato dalla stessa OpenAI, che spiega che “le conversazioni vocali avanzate con GPT-4o sono intrinsecamente multimodali e consentono lo scambio di audio tra l’utente e il modello. Di conseguenza, quando l’audio viene trascritto, la trascrizione potrebbe non essere sempre perfettamente in linea con la conversazione originale”.
Per quanto riguarda l’utilizzo, OpenAI spiega anche che ci sono dei limiti giornalieri per l’uso della modalità voce avanzata, anche per gli utenti Plus e Team. L’app avvisa con un certo anticipo quando l’utente si sta avvicinando a tale limite.