Uno dei tanti impieghi utili dell’intelligenza artificiale conversazionale – sottolinea Meta – è lo sviluppo di strumenti per le persone che hanno difficoltà di udito o problemi di linguaggio.
Ma spesso i sistemi di comprensione del parlato non funzionano bene nelle situazioni quotidiane in cui ne abbiamo più bisogno: quando più persone parlano contemporaneamente o quando c’è molto rumore di fondo.
Una ragione per cui in questi casi le persone riescono a capire i discorsi meglio dell’intelligenza artificiale – mette in evidenza Meta – è che non usano solo le orecchie ma anche gli occhi.
Le persone vedono la bocca di chi parla muoversi, oltre ad ascoltarne la voce.
Ed è per questo che Meta AI sta lavorando su nuovi sistemi di intelligenza artificiale conversazionale che possono riconoscere le correlazioni sfumate tra ciò che si vede e ciò che si sente in una conversazione. Proprio come fanno gli esseri umani.
Al fine di costruire strumenti di riconoscimento vocale più versatili e robusti, Meta ha ora annunciato Audio-Visual Hidden Unit BERT (AV-HuBERT). È una struttura auto-supervisionata all’avanguardia per la comprensione del parlato che impara sia vedendo che sentendo le persone parlare.
Meta afferma che si tratta del primo sistema che modella congiuntamente il discorso e i movimenti delle labbra da dati non etichettati: video grezzi che non sono stati precedentemente trascritti.
Utilizzando la stessa quantità di trascrizioni, afferma Meta, AV-HuBERT è più accurato del 75% rispetto ai migliori sistemi di riconoscimento vocale audiovisivo, quelli cioè che utilizzano sia il suono che le immagini di chi parla per capire cosa sta dicendo la persona.
In particolare, ha dichiarato ancora Meta, questo sistema supera un importante limite nell’addestramento dell’intelligenza artificiale per eseguire compiti utili. E cioè: AV-HuBERT supera il precedente miglior sistema di riconoscimento vocale audiovisivo utilizzando un decimo dei dati etichettati.
Poiché è difficile ottenere grandi quantità di dati etichettati per la maggior parte delle lingue del mondo, l’approccio auto-supervisionato di AV-HuBERT secondo Meta aiuterà l’azienda a costruire sistemi di riconoscimento vocale automatico (ASR, automatic speech recognition) che siano meno suscettibili al rumore, in più lingue e per più applicazioni.
AV-HuBERT secondo Meta contribuirà a molto più che permettere di sviluppare sistemi di intelligenza artificiale conversazionale che possano essere utilizzati in scenari difficili.
Siccome richiede molti meno dati supervisionati per il training, aprirà anche la possibilità di sviluppare modelli di intelligenza artificiale conversazionale per centinaia di milioni di persone in tutto il mondo che non parlano lingue come l’inglese, il mandarino e lo spagnolo, che possono disporre di set di dati etichettati su larga scala.