Lo sviluppo di sistemi di traduzione speech-to-speech è progredito nel corso degli ultimi decenni, allo scopo di aiutare le persone che parlano lingue diverse a comunicare tra loro.
La traduzione speech-to-speech, come concetto e come tecnologia, non è dunque certamente una novità assoluta, nemmeno all’interno dello stesso ecosistema Google.
Tuttavia, con Translatotron la società di Mountain View intende proporre un nuovo approccio, un nuovo modello di traduzione speech-to-speech end-to-end.
I sistemi di traduzione speech-to-speech, spiegano sul proprio blog gli ingegneri di Google AI, che all’interno dell’azienda conduce la ricerca sull’intelligenza artificiale, sono stati solitamente suddivisi in tre componenti separati. Questi sono: riconoscimento vocale automatico, per trascrivere il parlato sorgente in testo; machine translation, per tradurre automaticamente il testo trascritto nella lingua di destinazione; text-to-speech synthesis (TTS) per generare il parlato nella lingua target dal testo tradotto. Dividere il task in una tale ”cascata di sistemi” ha avuto molto successo e ha potenziato molti prodotti commerciali di traduzione speech-to-speech, tra cui anche lo stesso Google Translate.
Nel paper “Direct speech-to-speech translation with a sequence-to-sequence model”, gli ingegneri di Google AI propongono un nuovo sistema sperimentale basato su un singolo modello sequence-to-sequence per la traduzione speech-to-speech diretta, da parlato a parlato, senza fare affidamento su una rappresentazione testuale intermedia.
La traduzione speech-to-speech di nuova generazione
Tale sistema, soprannominato Translatotron, evita di suddividere l’attività in fasi separate, offrendo alcuni vantaggi rispetto ai sistemi in cascata, tra cui una maggiore velocità di inferenza, meno errori tra riconoscimento e traduzione, il rendere più semplice mantenere la voce dello speaker originale dopo la traduzione e una migliore gestione delle parole che non devono essere tradotte, quali ad esempio i nomi.
L’emergere di modelli end-to-end nell’ambito della traduzione del parlato è iniziato nel 2016, quando alcuni ricercatori hanno dimostrato la fattibilità dell’uso di un singolo modello sequence-to-sequence per la traduzione speech-to-text. Nel 2017, è stato dimostrato che tali modelli end-to-end possono performare meglio dei modelli a cascata.
Sono stati proposti di recente numerosi approcci per migliorare ulteriormente i modelli di traduzione speech-to-text end-to-end. Translatotron, spiega Google, fa un ulteriore passo avanti, dimostrando che un singolo modello sequence-to-sequence può tradurre direttamente il parlato da una lingua nel parlato in un’altra lingua, senza basarsi su una rappresentazione testuale intermedia in alcuna lingua, come invece viene richiesto nei sistemi in cascata.
Translatotron è basato su una rete sequence-to-sequence che prende gli spettrogrammi sorgente come input e genera spettrogrammi del contenuto tradotto nella lingua di destinazione.
Utilizza inoltre altri due componenti appositamente addestrati: un vocoder neurale che converte gli spettrogrammi di uscita in forme d’onda nel dominio del tempo e, facoltativamente, uno speaker encoder che può essere utilizzato per mantenere il carattere della voce dello speaker originale nel parlato tradotto sintetizzato.
Translatotron, l’interprete in tempo reale
Durante il training, spiega ancora Google, il modello sequence-to-sequence utilizza il multi-task learning per predire le trascrizione della fonte e del target, contemporaneamente alla generazione degli spettrogrammi target. Tuttavia, durante l’inferenza non vengono utilizzate trascrizioni o altre rappresentazioni di testo intermedie.
Nel validare la qualità della traduzione di Translatotron, gli ingegneri di Google evidenziano che, sebbene i risultati siano in ritardo rispetto a un sistema a cascata convenzionale, viene dimostrata la fattibilità della traduzione speech-to-speech diretta.
Inoltre, incorporando uno speaker encoder network, Translatotron è anche in grado di preservare le caratteristiche vocali dello speaker originale nel parlato tradotto, il che rende quest’ultimo ancora più naturale.
Translatotron potrebbe essere, per quel che si sa, il primo modello end-to-end in grado di tradurre direttamente il parlato da una lingua a un’altra, oltretutto mantenendo la voce dello speaker originale nella traduzione parlata. Il lavoro degli ingegneri di Google AI potrebbe dunque servire da punto di partenza per future ricerche sui sistemi di traduzione speech-to-speech end-to-end.