L’output vocale Alexa è realizzato mediante una tecnologia text-to-speech (TTS) che converte sequenze di parole in risposte sonore comprensibili e intelligibili.
Il modo in cui Alexa risponde e ”suona” è dunque fondamentale per un’interazione naturale con l’utente. Si tratta di un componente chiave, sottolinea Amazon, per garantire un’esperienza d’uso piacevole.
Sin dal lancio nel novembre 2014, questa tecnologia TTS ha consentito ad Alexa di selezionare e mettere insieme brevi frammenti di parlato. Tramite la combinazione di questi suoni, noti come difoni, Alexa forma parole e frasi da fornire come risposta vocale agli utenti.
Il team di ricerca di Amazon ha continuato a ottimizzare gli algoritmi di machine learning alla base del processo. Per determinare quali difoni scegliere e come legarli insieme in modo da formare una risposta quanto più naturale possibile.
Una nuova tecnologia Neural TTS
Recentemente, il team Amazon ha compiuto un passo per rendere le interazioni con Alexa ancora più naturali. Ciò, attraverso lo sviluppo di una nuova tecnologia Neural TTS (NTTS).
NTTS presenta una voce dal suono più naturale. Inoltre, consente ad Alexa di adattare il suo modo di parlare a seconda del contesto della richiesta. Proprio come le persone, che cambiano il loro modo di parlare in base alla situazione.
Per ottenere un suono più naturale e una voce di maggiore qualità per Alexa, i ricercatori di Amazon hanno adottato un approccio completamente nuovo alla sintesi vocale. Questo approccio è chiamato direct waveform modeling, modellazione diretta delle forme d’onda, e sfrutta il deep learning per produrre il segnale vocale.
La voce prodotta dalla tecnologia NTTS offre una migliore intonazione. Inoltre, enfatizza le parole giuste in una frase e migliora la qualità rispetto alle precedenti tecnologie TTS.
Alexa diventa giornalista
Il primo passo per adattare lo stile di parlato di Alexa in base al contesto è già stato compiuto da Amazon. Si è concretizzato con l’introduzione di uno “stile narrante da giornalista”. Alexa si trasforma, in pratica, in speaker professionista da radio-telegiornale.
Per ora questa “personalità” di Alexa è disponibile per gli utenti americani. Negli Stati Uniti, quando si chiede ad Alexa quali sono le ultime notizie, l’assistente virtuale “veste i panni” (o meglio, la voce) da giornalista. Il parlato dell’assistente vocale si adatta cioè allo stile di giornalisti e speaker professionisti.
Le potenzialità di questa nuova tecnologia, sottolinea Amazon, non si fermano qui. La possibilità di insegnare ad Alexa a adattare il modo di parlare in base al contesto della richiesta dell’utente, apre le porte a possibili nuove esperienze prima impensabili.
Su questa pagina del blog Amazon è possibile ascoltare alcuni sample del nuovo stile di parlato di Alexa. Sul blog per gli sviluppatori, a questo link, è invece possibile leggere ulteriori informazioni sulla tecnologia NTTS.