Ciao a tutti! Questo è l’episodio 32 di Le Voci dell’AI.
Un paio di settimane fa, nell’episodio 30, abbiamo parlato della nuova voce di ChatGPT, delle implicazioni di un’interazione vocale e delle enormi opportunità di business legate all’uso di voci sintetiche.
Come vi ho detto in quell’occasione, l’impatto della voce di una AI intelligente almeno tanto quanto GPT-4 sarà più profondo e a lungo termine di tutte le altre modalità espressive viste fino ad ora, ma assicuriamoci di non perdere d’occhio le opportunità più a breve termine.
La vista di ChatGPT, Introdotta insieme alla voce, ha il potenziale di trasformare il lavoro di molteplici categorie professionali in tutte le industrie.
Oggi voglio parlarvi di due cose legate alla capacità di vedere di un modello di AI.
Uno, le applicazioni industriali identificate dai ricercatori di Microsoft Research e due, l’applicazione universale che io ritengo essere la più importante in assoluto nel futuro.
Cominciamo dalle idee dei ricercatori di Microsoft Research.
Tra le varie applicazioni pensate dai ricercatori c’è l’analisi delle immagini per verificare che il personale addetto ai lavori utilizzi equipaggiamento protettivo a norma e non lavori in situazioni a rischio.
L’uso della computer vision a questo scopo esiste da tempo e ci sono aziende focalizzate sulle industrie edilizie e la logistica che offrono soluzioni a questo problema. Ma l’uso di un Large Language Model riduce drasticamente la complessità del task.
Un’altra applicazione pensata dai ricercatori è l’analisi degli oggetti nel carrello della spesa, per automatizzare il check-out e ridurre al minimo la frizione nello shopping.
Anche questa non è una novità assoluta. Il pioniere di questo approccio è Amazon, con la tecnologia Just Walk Out, che viene usata qui a Londra e in varie città americane per i negozi al dettaglio, Amazon Fresh e Amazon Go. Si vocifera che il costo e la complessità dell’analisi dei feed delle telecamere che tappezzano i negozi renda molto difficile scalare questa tecnologia al punto tale che Amazon ha appena inaugurato una nuova configurazione per i propri negozi dove utilizza tag Rfid invece della computer vision; però è possibile che la nuova vista di GPT-4 renda l’approccio più scalabile nel tempo.
Un’altra applicazione pensata dai ricercatori di Microsoft è l’analisi delle parti difettose nel settore manifatturiero o l’analisi dei beni deperibili nella vendita all’ingrosso data l’immagine di un oggetto integro o non difettoso.
GPT-4V(ision) usa l’immagine di riferimento per effettuare un controllo di qualità automatico della frutta e verdura o di parti di ricambio.
Per rimanere sul tema del riconoscimento di parti difettose, i ricercatori hanno anche pensato a un’applicazione per il mondo assicurativo, dove GPT-4V potrebbe fare un’analisi automatica delle foto delle autovetture coinvolte in incidenti stradali e, in base a quel contesto, riconoscere marca e modello del veicolo, valutare il danno e compilare un rapporto per l’assicurazione.
E poi, ovviamente, ci sono le applicazioni del mondo della sanità, dove GPT-4V potrebbe analizzare le radiografie dei pazienti meglio delle tecnologie di machine learning che utilizziamo già oggi.
Tutti questi esempi rappresentano una parte significativa del lavoro svolto da vari professionisti addetti alla sicurezza sul lavoro, ispettori di qualità, cassieri, periti assicurativi.
Tutte queste figure professionali e molte altre potrebbero cambiare drasticamente nei prossimi anni o scomparire del tutto.
Un modello di AI generativa dotato di visione rappresenta un’opportunità senza pari di ridurre costi ed errori umani e al tempo stesso aumentare la produttività di ogni singolo lavoratore. Ma le implicazioni in termini di occupazione sono ancora tutte da capire.
Veniamo al mio caso d’uso preferito, quello dove secondo me la vista di GPT-4 farà la differenza più grande di tutte, abbattendo gran parte della complessità nell’interazione con i computer per la stragrande maggioranza del pianeta.
Immaginate una AI in grado di osservare il desktop del nostro computer e intervenire per risolvere un problema improvviso. Per esempio, quando Windows genera un errore che gli utenti non tecnici non sanno come risolvere.
Immaginate questa AI, in grado di osservare il nostro desktop, collaborare con noi alla creazione di un’immagine in Photoshop o addirittura immaginate questa AI in grado di continuare da sola il nostro lavoro quando dobbiamo assentarci per un meeting, rispondere al telefono o quando andiamo a dormire.
Immaginate questa AI in grado di osservare quello che facciamo ogni giorno con i nostri computer fino al punto da identificare un comportamento ricorrente, una routine di cui magari non ci accorgiamo nemmeno.
Immaginate questa AI trasformare quella routine in un work flow di automazione, senza forzarci a spiegare in dettaglio tutte le azioni che vanno ripetute ogni volta.
Ho cominciato a pensare a questo scenario seriamente quattro anni fa, molto prima che la tecnologia fosse pronta. E adesso che siamo vicinissimi, vediamo finalmente la possibilità di vincere la sfida più grande nell’automazione dei processi nelle grandi aziende: la documentazione del processo e la standardizzazione degli elementi di quel processo.
Ma questo è un tema troppo grande che merita una puntata di Le Voci dell’AI a sé.
Torniamo invece a questa AI che vede tutto. e concentriamoci su un’idea più generale e più rivoluzionaria.
È straordinario che i programmatori di oggi possano chiedere a un’AI come CoPilot, Ghostwriter, o CodeWhisperer di aiutarli quando incontrano un bug nel loro programma o quando rimangono bloccati nello sviluppo di una funzione particolarmente complessa.
Straordinario, ma solo temporaneo.
Un modello di AI generativa in grado di osservare il nostro desktop tutto il tempo sarà in grado di intervenire proattivamente quando ci blocchiamo, prima solo nel contesto di una singola applicazione, poi, contestualmente a tutte le applicazioni sullo schermo.
Non avremo più bisogno di dire “ho un problema”, sarà ovvio per l’AI che si offrirà di aiutarci immediatamente.
E tutto questo non solo a beneficio degli sviluppatori, ma di qualunque utente, per qualunque software esistente, in qualunque lingua, in ogni angolo del pianeta.
Vi faccio vedere che succede in questo scenario, dove sto cercando di migliorare un’immagine non proprio eccezionale scattata durante la mia visita agli uffici di Engineering Arts qui a Londra.
Qui non ricordo esattamente cosa fanno i quattro comandi di questo menu e per quanto Pixelmator Pro abbia un’interfaccia infinitamente più coerente e semplice da usare di Photoshop, potrebbe fare meglio in termini di chiarimenti.
Quindi che faccio? Certo, potrei descrivere il mio problema in un prompt per GPT-4, dettagliando il contesto di Pixelmator Pro. Ma è una cosa lunga da fare. Che succede se invece faccio uno screenshot di questa situazione e lo passo a GPT-4 come contesto? l’AI capisce esattamente di cosa sto parlando e mi ricorda cosa fanno i quattro comandi che mi interessano, permettendomi di andare avanti.
Incredibile.
Immaginate che invece di fare uno screenshot, GPT-4 sia lì a osservare il mio desktop costantemente.
Come abbiamo già detto, immaginate anche di poter parlare con GPT-4 attraverso il microfono del vostro computer e di poter sentire la risposta grazie alle nuove voci sintetiche di cui abbiamo tanto parlato.
Immaginate le possibilità di una simile soluzione. Questa tecnologia potrebbe ridurre drasticamente il costo del supporto al cliente e il costo della formazione per qualsiasi azienda del mondo.
Chi non vorrebbe avere una voce amica che è sempre disponibile per dare una mano in qualunque cosa stiamo facendo? Quanto più facile potrebbe essere l’interazione con un computer per quella fascia della popolazione mondiale che non si sente in grado di usare un computer.
OK, ci fermiamo qui per questa settimana. Come sempre, scrivetemi all’indirizzo di posta elettronica che trovate qui sotto con i vostri commenti, le domande, i suggerimenti per gli argomenti da trattare nei prossimi episodi.
Ciao!