Per affrontare la sfida posta dai dati per l’intelligenza artificiale, i dati sintetici potrebbero essere la risposta?
A porsi la domanda, e a provare a dare una risposta, è Darminder Ghataoura, AI and Data Science Lead in ambito Defence and National Security di Fujitsu, sul blog ufficiale della società Ict giapponese.
Le tecnologie di intelligenza artificiale hanno un forte potenziale di impatto su quasi ogni ambito della società, afferma Darminder Ghataoura: tuttavia, nonostante i vantaggi, l’adozione e la diffusione più ampie dell’intelligenza artificiale sono in qualche modo vincolate dalle limitazioni legate ai dati.
I modelli di oggi sono incredibilmente “assetati” di dati e le organizzazioni che cercano di implementare l’intelligenza artificiale in modo efficace hanno bisogno di avere accesso a grandi volumi di dati pertinenti, puliti e ben organizzati, di cui ci si può fidare.
Le grandi aziende tecnologiche, come Google, Apple e Amazon, dispongono tutte di una quantità pressoché illimitata di flussi di dati diversi, acquisiti attraverso i prodotti e i servizi che vendono. Questo crea l’ecosistema perfetto per i data scientist per addestrare i loro algoritmi.
Per le organizzazioni di piccole e medie dimensioni, compresi i dipartimenti del settore pubblico, l’acquisizione di dati su vasta scala rappresenta una sfida molto più grande: i loro dati sono spesso proprietari; ci sono limiti all’uso a causa di accordi contrattuali; mancano di standard comuni per la condivisione; inoltre, i dati richiedono molto tempo per essere preparati manualmente, il che li rende costosi.
Il risultato finale è che i dati diventano una barriera per l’innovazione e per una più ampia adozione dell’intelligenza artificiale.
Per affrontare questa sfida, le organizzazioni guardano sempre più ai dati sintetici per colmare questo deficit di dati.
Cosa sono i dati sintetici
Cosa sono i dati sintetici? Nella loro forma più pura, spiega Darminder Ghataoura, i dati sintetici sono generati programmaticamente imitando i fenomeni del mondo reale.
Attualmente, i dati sintetici hanno iniziato ad avere un impatto su studi clinici e scientifici per evitare problemi di privacy relativi ai dati sanitari. Allo stesso modo, nell’ambito dello sviluppo software, possono essere utilizzati per lo sviluppo agile e DevOps al fine di accelerare i test del software, migliorando al contempo i cicli di controllo della qualità.
Se da un lato la generazione di dati sintetici esiste sin dagli anni ’90, ora sta emergendo un rinnovato interesse su di essi grazie agli enormi progressi nella potenza di calcolo, associati a costi di archiviazione inferiori e all’avvento di nuovi algoritmi come le Generative Adversarial Network (GAN).
I dati generati possono anche essere resi anonimi e creati in base a parametri specificati dall’utente, in modo che siano il più vicino possibile alle proprietà di cui si ha esperienza da scenari del mondo reale. In questo modo, il vantaggio principale dell’utilizzo di dati sintetici diventa scalabilità e flessibilità.
In sostanza, ciò consente agli sviluppatori di intelligenza artificiale di generare tutti i dati necessari per addestrare algoritmi e migliorare le prestazioni e l’accuratezza del modello.
I dati generati sinteticamente, afferma l’esperto di Fujitsu, possono aiutare organizzazioni e ricercatori a creare gli archivi di dati affidabili necessari per il training e persino il pre-training dei modelli di intelligenza artificiale. In modo simile a come uno scienziato potrebbe utilizzare materiale sintetico per completare esperimenti a basso rischio, le organizzazioni possono ora sfruttare i dati sintetici per ridurre al minimo tempi e costi, nonché i rischi.
Un esempio reale, evidenzia Darminder Ghataoura, è l’auto autonoma potenziata dall’intelligenza artificiale Waymo di Google, che completa ogni giorno oltre tre milioni di miglia di guida simulata. L’uso di dati sintetici consente agli ingegneri di Waymo di testare eventuali miglioramenti all’interno di un ambiente simulato sintetico sicuro, prima di essere testati nel mondo reale.
Oltre alla guida autonoma, le potenziali applicazioni della generazione di dati sintetici sono numerose e varie. Gli esempi includono: eventi meteorologici rari, malfunzionamenti dell’attrezzatura, incidenti automobilistici o sintomi di malattie rare.
Nella modellizzazione di situazioni rare, i dati sintetici potrebbero essere l’unico modo per garantire che il sistema di intelligenza artificiale sia addestrato per ogni possibile eventualità.
Nonostante i loro evidenti vantaggi e benefici, sottolinea però allo stesso tempo Darminder Ghataoura, dobbiamo considerare che i dati sintetici sono ancora una replica di proprietà specifiche di un set di dati reale. Un modello cerca le tendenze da replicare, quindi alcuni comportamenti casuali potrebbero essere potenzialmente persi.
Anche il diritto alla privacy deve essere rispettato e le persone dovrebbero avere la possibilità di rinunciare e controllare l’utilizzo dei propri dati. Inoltre, l’uso di dati sintetici può anche portare a malintesi durante la fase di sviluppo su come i modelli di intelligenza artificiale performeranno con i dati del mondo reale.
Pertanto, avverte l’esperto di Fujitsu, i dati sintetici non sono sempre la soluzione perfetta.
Sebbene siano stati compiuti progressi significativi, una sfida che persiste è garantire l’accuratezza dei dati sintetici. È necessario garantire che le proprietà statistiche dei dati sintetici siano abbinate accuratamente alle proprietà del set di dati originale. Questo rimane un topic di ricerca attivo.
Fujitsu, evidenzia Darminder Ghataoura, è profondamente consapevole che l’uso di qualsiasi forma di dati sintetici per le attività di trasformazione dell’intelligenza artificiale dipenderà dalla natura sensibile dei requisiti del progetto.
La società giapponese lavora a stretto contatto con l’industria, il mondo accademico e gli enti regolatori mentre si continua a studiare e sviluppare misure e linee guida di buone prassi per garantire un uso corretto dei dati sintetici nelle soluzioni di intelligenza artificiale in una vasta gamma di applicazioni di settore.
Fujitsu ha anche realizzato e pubblicato il white paper “AI and Synthetic Data” che è un’utile lettura per chi voglia esplorare il tema dei dati sintetici in modo più dettagliato.