Google è al lavoro per ampliare la platea che può accedere alle soluzioni di interazione vocale basate su intelligenza artificiale. Lo fa offrendo un numero maggiore di opzioni, prezzi più bassi e nuove lingue e voci.
La capacità di riconoscere e sintetizzare la voce, sottolinea l’azienda, è fondamentale per rendere più naturale e semplice l’interazione uomo-macchina. Tuttavia, è ancora un tipo di interazione molto rara.
Google ha di recente compiuto un nuovo passo per rendere i prodotti Cloud Speech-to-Text e Text-to-Speech accessibili a più aziende di tutto il mondo. Con più funzioni, voci più o meno raddoppiate, più lingue in più Paesi (+50%). Nonché a prezzi inferiori: fino al 50% in alcuni casi.
Riconoscimento vocale in continua evoluzione
L’azienda offre anche un aggiornamento sull’evoluzione di queste tecnologie. L’anno scorso Google aveva annunciato nuovi modelli in versione beta per una più accurata trascrizione del parlato, dai video e dalle telefonate.
Questo modello ottimizzato per il telefono, annuncia ora Google, produce il 62% di errori di trascrizione in meno. Migliorando dal 54% dello scorso anno. Mentre il modello video presenta il 64% in meno degli errori. Inoltre, il modello video funziona anche in ambienti con più speaker, come riunioni o podcast. Questo modello video si basa su una tecnologia simile a quella utilizzata da YouTube per i sottotitoli automatici.
Il modello perfezionato per i telefoni inizialmente era disponibile solo per i clienti che partecipavano al programma di data logging. Molte grandi imprese, informa Google, hanno chiesto di poter utilizzare il modello avanzato senza il data logging. Ora, dunque, tutti possono accedere al modello avanzato per telefoni. I clienti che scelgono l’opt-in al data logging pagano una tariffa inferiore.
Nuove offerte di Google
Oltre alla disponibilità generale di entrambi i modelli premium, Google ha annunciato anche la disponibilità del riconoscimento multicanale, multi-channel recognition. Questo aiuta le API Cloud Speech-to-Text a distinguere tra più canali audio: ad esempio, persone diverse in una conversazione.
Ciò è molto utile per le analytics su chiamate o riunioni, e per altri casi d’uso che coinvolgono più partecipanti. Con la disponibilità generale, queste funzionalità ora si qualificano per uno SLA e altre garanzie di livello enterprise.
Un altro metodo per rendere accessibile su una scala più vasta Cloud Speech-to-Text è attraverso la diminuzione dei prezzi. Prezzi che ora sono fino al 50% più bassi, sottolinea Google.
Google ha annunciato che, per i modelli standard e il modello video premium, i clienti che accettano l’opt-in al programma data logging ora pagheranno il 33% in meno.
L’azienda ha ridotto i prezzi del modello video premium del 25%. Per un risparmio totale del 50%, per gli attuali clienti del modello video che hanno accettato l’opt-in al data logging.
Cloud Text-to-Speech
Le novità si estendono anche alla sintesi vocale. Grazie alla tecnologia WaveNet potenziata dalle Cloud TPU di Google, l’azienda si dichiara in grado di creare nuove voci e lingue più rapidamente di quanto avviene solitamente nel settore.
Negli ultimi mesi Google ha compiuto notevoli progressi su Cloud Text-to-Speech, approssimativamente raddoppiando il numero di voci complessive, voci WaveNet e linguaggi WaveNet. Nonché aumentando il numero di lingue supportate, nel complesso all’incirca del 50%.
Google ha introdotto il supporto per sette nuove lingue o varianti. Questo aggiornamento espande l’elenco delle lingue supportate a 21 e abilita applicazioni per milioni di nuovi utenti finali.
L’azienda ha introdotto 31 nuove voci WaveNet e 24 nuove voci standard, tra le nuove lingue citate. Ciò consente a un numero maggiore di imprese in tutto il mondo di utilizzare la tecnologia di sintesi vocale Google.
Il supporto è cresciuto a 20 lingue e varianti con le voci WaveNet, rispetto alle nove dello scorso agosto. E rispetto alla singola voce di più di un anno fa, quando è stato introdotto Cloud Text-to-Speech.
Inoltre, Google ha annunciato la general availability della funzionalità Device Profiles di Cloud Text-to-Speech. Questa ottimizza la riproduzione audio su diversi tipi di hardware. Ad esempio, alcuni clienti con applicazioni di call center ottimizzano il playback per l’interactive voice response (IVR). Mentre altri, il cui focus è su contenuti e media (ad esempio podcast), lo ottimizzano per le cuffie.
Ulteriori informazioni su Cloud Speech-to-Text sono disponibili a questo link, mentre su Cloud Text-to-Speech a questo link.