Ciao a tutti! Questo è l’episodio 37 di Le Voci dell’AI.
La settimana scorsa abbiamo parlato dell’imminente competizione che i produttori di software di tutto il mondo dovranno fronteggiare a causa di un’AI capace di vedere tutto e replicare tutto.
In appena sette giorni, quasi in risposta a quello che ci siamo detti la comunità AI ha pubblicato una serie impressionante di ricerche, modelli e demo a supporto dello scenario che ho descritto nell’episodio 36.
Se avete perso quell’episodio, vi consiglio di fermarvi qui, andare a guardarlo e tornare per il resto. Se invece avete visto l’episodio 36 e lavorate in un’azienda di software o ne siete alla guida, vi raccomando di prestare attenzione a due cose di critica importanza.
Primo, un nuovo paper di ricerca che mostra come il nuovo modello di OpenAI chiamato GPT-4V sia in grado di navigare l’interfaccia utente di un iPhone per completare un task assegnato senza alcun tipo di training specifico.
La V in GPT-4V sta per Vision, e per dimostrare l’ipotesi al centro di questa nuova ricerca, i ricercatori hanno creato un agente software in grado di catturare gli screenshot dello schermo dell’iPhone passare poi gli screenshot a GPT-4V per l’analisi e la decisione su cosa fare nello step successivo e infine per eseguire lo step.
Il codice di questo agente, che si chiama MM-Navigator, sarà rilasciato in un prossimo futuro. Da qui il passo successivo è breve.
Come ho detto nell’episodio 36, immaginate che il task assegnato al modello sia quello di esplorare tutte le funzionalità di una qualsiasi applicazione installata nell’iPhone allo scopo di riprodurne le funzionalità.
L’agente del caso, come abbiamo visto nella situazione descritta nel paper di ricerca, comincia a investigare ogni etichetta, ogni bottone, ogni schermo, e fa una serie di supposizioni su come questi elementi siano connessi gli uni con gli altri e quale sia l’output desiderato a seconda dell’azione intrapresa.
Queste informazioni sono più che sufficienti per generare un prototipo di un’applicazione in un linguaggio qualsiasi, il che ci porta alla seconda cosa a cui prestare attenzione subito dopo il rilascio di GPT-4V.
Uno sviluppatore che lavora per Figma, leader di mercato quando si tratta del design di interfacce utente ha pubblicato il prototipo di un software straordinario.
Questo software, chiamato Draw My UI, è in grado di trasformare la bozza in bianco e nero di un’interfaccia utente, quello che si chiama mock-up, in un’interfaccia utente web funzionante. Tutto grazie a GPT-4V.
A questo punto gli sviluppatori che lavorano alla lavagna digitale collaborativa chiamata tldraw hanno preso questo progetto e lo hanno grandemente arricchito integrandolo con il proprio software.
Il risultato che si chiama MakeReal. Potete usarlo anche voi, se siete registrati nel portale per gli sviluppatori di OpenAI e avete una Api key.
Adesso tutto quello che rimane da fare è mettere insieme i pezzi. Prendete un software come l’agente MM-Navigator che abbiamo menzionato all’inizio. Fategli esplorare e capire un qualunque software a vostra disposizione. Poi passate il tutto in un’implementazione come MakeReal, ecco che la clonazione istantanea del software diventa uno scenario estremamente probabile. Questa, come abbiamo detto, nell’episodio 36, è la competizione, moltiplicata diecimila volte, che l’intelligenza artificiale sta per introdurre, quella che potrebbe portare all’estinzione dei modelli di business basati sulla vendita di software che esistono oggi.
Ma la competizione introdotta dall’AI non è mica solo un problema per le aziende.
A livello personale ognuno di noi potrebbe trovarsi a fronteggiare una competizione diecimila volte maggiore.
Abbiamo già parlato di AI e competizione a livello personale nell’episodio 21 di Le Voci dell’AI.
In quell’occasione però ci siamo riferiti al fatto che un datore di lavoro in grado di usare il nostro operato per fare il fine tuning di un modello di AI, potrebbe creare un clone, un nostro clone a bassissimo costo, di fatto rimpiazzandoci con noi stessi.
Oggi invece parliamo di una competizione a livello personale che non viene da un nostro clone, ma da diecimila altre persone che all’improvviso riescono a fare quello che facciamo noi senza particolari competenze.
E questo discorso è, come nell’episodio 36, in risposta all’idea dell’ingegnere del software moltiplicato dieci, cento, mille volte.
Vi faccio vedere l’ombra di quello che significa in pratica una competizione moltiplicata diecimila volte.
Quello che vi faccio vedere è per me una specie di miracolo. Meno tecnici siete e più sarà facile capire perché chiamo miracolo quello che sto per farvi vedere prima di tutto.
il contesto che in questo caso è più importante del solito. Il contesto che dovete tenere a mente è che io non sono un programmatore. Anche se ho cominciato la mia carriera molti anni fa, partendo da un livello estremamente tecnico, la sicurezza informatica a livello di network e sistemi operativi, non mi sono mai specializzato nello sviluppo applicativo e poi, durante la mia carriera ho ampliato ed elevato il mio punto di vista focalizzandomi sulla strategia del business e il management aziendale.
Quindi, per quanto io riesca a capire, a grandi linee, il codice sorgente di un programma, io non sono uno sviluppatore. Oggi non potrei mai creare un’applicazione di alcun tipo senza uno sforzo enorme e un tempo eccezionalmente lungo.
Però, come chiunque altro, ho un sacco di idee e una serie di strumenti digitali che mi servirebbero, ma non esistono o che vorrei poter usare.
Nella mia stessa situazione sono ovviamente milioni di persone nel mondo che hanno idee e bisogni, ma che non hanno le competenze o le risorse per sviluppare software. Queste persone si affidano ogni giorno ai milioni di sviluppatori che esistono sul mercato.
E quindi? E quindi ho provato a sovvertire questo ordine delle cose.
Un paio di settimane fa il team di OpenAI ha rilasciato il primo loro modello di sintesi vocale o text-to-speech chiamato tts-1. E la qualità della voce generata da questo modello è straordinaria.
Se seguite Le Voci dell’AI all’inizio, sapete quanta importanza attribuisco a questa particolare branca dell’intelligenza artificiale e mi avete visto fare decine di esperimenti per valutare il progresso tecnologico nel campo della sintesi vocale.
La qualità del modello di OpenAI e la velocità alla quale l’audio viene generato mi ha spinto ad aprire un cassetto chiuso per anni.
In quel cassetto c’è l’ambizione di usare un’interfaccia vocale per i sistemi operativi desktop, che sia buona almeno quanto il computer onnipresente nella serie televisiva Star Trek.
Tra l’altro, per chi non lo sapesse, questa stessa ambizione è quella che ha originariamente spinto Amazon a creare Alexa. Il problema di Alexa, Siri e Google Assistant è che mentre la qualità della voce è eccellente, la qualità dell’interazione è da dimenticare ed è stata tale per un decennio.
L’idea di poter conversare con un modello come GPT-4 con la qualità della voce di tts-1 ha creato l’urgenza di realizzare una specie di Alexa per il computer. Non essendo un programmatore e non volendone scomodare uno per un esperimento con un esito incerto, ho chiesto a GPT-4 di creare un’applicazione per me da zero che mi permettesse di parlare e ricevere una risposta vocale da GPT-4 dal mio computer.
Bene. GPT-4 ha creato per me l’applicazione che ho chiesto in circa tre minuti. Tre.
Ci sono voluti altri dodici minuti in un noioso botta e risposta per correggere una serie di piccoli errori nel codice che GPT-4 mi ha raccomandato di usare.
Ma ricordatevi che io non sono un programmatore e quindi non so come correggere i bug di un software; in questa botta e risposta di dodici minuti tutto quello che ho fatto è stato semplicemente copiare e incollare gli errori che apparivano sullo schermo all’interno della finestra di ChatGPT e chiedere a GPT-4 di correggere questo o quell’errore. Alla fine, dopo quindici minuti, ero in possesso di un’interfaccia vocale funzionante che oggi mi permette di conversare con GPT-4 completamente con la voce, senza alcuna esperienza di programmazione e la voce incredibile.
Vi faccio sentire l’audio.
Per qualche motivo la registrazione della mia voce che sentite all’inizio è stata accelerata probabilmente per ottimizzare il task, ma la cosa straordinaria che c’è voluto più tempo per mettere insieme la registrazione dell’audio che per creare l’applicazione che sognavo da una vita.
Ve lo dico di nuovo, ho creato il mio Alexa personale per il mio computer desktop in quindici minuti, senza sapere cosa stavo facendo. E questo per me è una specie di miracolo.
Arriviamo al punto chiave di questa storia.
Ovviamente, una persona come me che usa l’AI generativa per scrivere software non produrrà mai un’applicazione con le stesse funzionalità e il livello di sicurezza che avrebbe un’applicazione sviluppata da un ingegnere del software.
Ma in un numero enorme di casi, tutte quelle funzioni e quel livello di sicurezza non servono.
Ho servito in una delle aziende di software più grandi del mondo per quasi un decennio e tra le varie cose che ho imparato è che gli esseri umani preferiscono una soluzione specifica a un problema preciso e la vogliono il più velocemente possibile.
Questo è il punto.
Nel prossimo futuro, chiunque nel mondo con un’idea sarà in grado di svilupparla quasi istantaneamente e quell’implementazione farà esattamente la cosa che serve all’ideatore e nulla di più.
E queste piccole implementazioni renderanno ognuno di noi molto più veloce, molto più competitivo, molto più in grado di eseguire un compito per il quale non siamo preparati.
E questa è la competizione moltiplicata diecimila volte.
Stiamo entrando in un ignoto che è più grande di quanto sembra.
Cominciate a farvi delle domande più difficili.
Ciao!