Ciao a tutti, sono Vincenzo Lomonaco ricercatore all’Università di Pisa.
Nella puntata di oggi parliamo di un tema caldissimo nel contesto dell’intelligenza artificiale.
Parliamo di AI safety. Come è possibile creare agenti e soluzioni intelligenti ma anche sicure e affidabili, in linea con i nostri valori umani e obiettivi?
Qual è lo stato dell’arte in questa direzione? Scopriamolo insieme in questa puntata di Le Voci dell’AI.
Con AI safety ci si riferisce al campo di ricerca e alle pratiche mirate a garantire che i sistemi di intelligenza artificiale siano progettati e utilizzati in modo sicuro e prevedibile, minimizzando i rischi legati a comportamenti indesiderati o dannosi.
Questo concetto include questioni come l’allineamento degli obiettivi dell’IA con i valori umani, la prevenzione di errori sistemici e il controllo del comportamento di sistemi di intelligenza artificiale avanzati che potrebbero sviluppare capacità che superano la comprensione o il controllo umano.
Ad esempio, un’IA avanzata potrebbe interpretare un compito in modo imprevedibile o perseguire un obiettivo in maniera dannosa per gli esseri umani, anche senza intenti malevoli.
l’AI safety si concentra quindi su come prevenire tali esiti indesiderati, garantendo che l’intelligenza artificiale rimanga sotto il controllo umano e funzioni in maniera etica e responsabile.
È bene sottolineare anche la differenza con l’AI security, la sicurezza in AI, che risiede principalmente nel focus.
L’AI security riguarda la protezione dei sistemi di AI contro minacce esterne come attacchi informatici o manipolazioni malevole da parte di malintenzionati.
Quindi, mentre l’AI safety si occupa di assicurarsi che i sistemi di AI siano intrinsecamente sicuri e comportino rischi minimi di natura tecnica o etica, la security si focalizza sulla protezione delle vulnerabilità legate alla sicurezza informatica, come l’accesso non autorizzato, il furto di dati o l’alterazione di sistemi, ad esempio.
Un sistema di AI sicuro, dal punto di vista della safety, potrebbe comunque essere vulnerabile da un hacker che lo manipola per scopi malevoli e viceversa.
Un sistema protetto da attacchi esterni potrebbe comportarsi in modi pericolosi se non ben allineato agli obiettivi e ai valori umani.
In sintesi, l’AI safety riguarda la costruzione di sistemi di intelligenza artificiale che funzionino correttamente in ogni circostanza, mentre l’AI security si occupa di difendere tali sistemi da minacce esterne, garantendo integrità e protezione contro attori malevoli.
Nel contesto delle ICT Safe vorrei suggerirvi la lettura del libro “SuperIntelligence – Paths Dangers Strategies” di Nick Bostrom che esplora il potenziale sviluppo di un’intelligenza artificiale superiore a quella umana, per questo chiamata superintelligenza e i rischi esistenziali che questa potrebbe comportare.
Bostrom nel libro esamina diverse vie attraverso cui l’IA potrebbe raggiungere questi livelli sovrumani, come il potenziamento delle capacità umane, la creazione di macchine autonome e, una volta raggiunto questo punto, come l’IA potrebbe diventare difficile da controllare mettendo in pericolo l’umanità se i suoi obiettivi non fossero effettivamente allineati ai nostri.
Il libro propone strategie concrete per affrontare queste sfide, come la creazione di meccanismi di controllo per evitare che l’IA agisca in modo dannoso.
Bostrom sottolinea l’importanza di sviluppare sistemi e soluzioni di IA in modo sicuro, perché un’intelligenza, anzi una superintelligenza mal gestita, potrebbe rappresentare addirittura una minaccia esistenziale per l’umanità.
È bene sottolineare che Bostrom è anche il fondatore del Future of Humanity Institute – FHI, che si è dedicato alla ricerca sui rischi globali, che potrebbero mettere quindi a rischio la nostra umanità, inclusi quelli legati allo sviluppo di un’intelligenza artificiale generalista e avanzata. L’Associazione ha promosso lo studio della sicurezza in AI, quindi, collaborando con istituzioni accademiche e politiche per garantire uno sviluppo responsabile della tecnologia.
La connessione tra il libro e l’associazione risiede nell’obiettivo comune di prevenire i pericoli legati allo sviluppo di una superintelligenza, sviluppando approcci etici e sicuri per la sua gestione.
Nel contesto dell’AI safety, il campo dell’AI aligment mira a garantire che sistemi di intelligenza artificiale avanzati siano allineati con gli obiettivi, i valori e le preferenze umane.
Il problema centrale è che un’IA può interpretare gli obiettivi che le vengono assegnati in modo inaspettato o indesiderato, portando a comportamenti addirittura pericolosi o dannosi se non allineati agli interessi umani.
Una tecnica centrale per l’AI alignment è l’apprendimento tramite rinforzo delle preferenze umane, in cui l’intelligenza artificiale impara direttamente dai feedback degli umani, osservando azioni e decisioni per dedurre ciò che le persone desiderano effettivamente.
L’apprendimento con rinforzo inverso è un esempio dove l’IA apprende i valori dagli esseri umani non attraverso dei comandi espliciti, ma osservando il loro naturale comportamento.
Un’altra tecnica possibile per migliorare l’AI safety e l’alignment è rappresentata dagli approcci chiamati di Constitutional AI, dove le AI segue una costituzione esplicita, ovvero una serie di regole o principi definiti che ne guidano il comportamento.
Invece di apprendere dalle azioni umane, l’IA e istruita a conformarsi a linee guida etiche stabilite in modo chiaro e che riflettono i valori desiderati.
La costituzione può includere norme morali, regole di condotta o obiettivi, e l’IA è progettata per attenersi a queste regole durante il processo di addestramento e funzionamento.
In this lens, one can see a lot of safety research as “eating marginal probability” of things going well, progressively addressing harder and harder safety scenarios. pic.twitter.com/TOxXcIw7wP
— Chris Olah (@ch402) June 7, 2023
In questo tweet di Chris Olah viene illustrato come il team di Anthropic, un’azienda che si occupa di creazione di modelli fondazionali e anche di SVT, affronta la difficoltà dell’allineamento dell’IA.
Secondo questa visione, esiste uno spettro di possibili scenari che vanno da: l’andamento è molto facile da realizzare a: l’allineamento è un problema impossibile, come vediamo sulle ascisse.
Quindi si va da difficoltà come quella di creare un motore a vapore alla creazione dell’Apollo Program e così via fino all’impossibile.
Sulle ordinate abbiamo la probabilità che determinate metodologie abbiano effettivamente tale complessità, tenendo conto che nessuno può sapere quanto sia difficile il problema degli ASI e dell’allineamento e se sia davvero risolvibile.
Ecco, sulla base di tale diagramma possiamo dunque considerare la ricerca sull’allineamento dell’IA come un processo volto ad aumentare la probabilità di esiti benefici, affrontando progressivamente questi scenari.
In particolare vediamo illustrate tre tecniche con crescente livello di complessità, come il prompting, dove cerchiamo di istruire una macchina attraverso delle direttive testuali e le due tecniche che abbiamo appena discusso di apprendimento con rinforzo inverso da preferenze umane e di AI costituzionale.
A dimostrare il momento piuttosto caldo di questa disciplina, è notizia di qualche giorno fa il finanziamento di più di 1 miliardo di dollari per Safe Superintelligence, una start-up focalizzata sullo sviluppo di intelligenza artificiale avanzata in modo sicuro e allineato con i valori umani.
Pensate che Ilya Sutskever, il co-fondatore di OpenAI, ha lasciato OpenAI per fondare questa start up con l’obiettivo di affrontare i rischi esistenziali legati alla creazione di una super intelligenza non controllata.
Quindi preoccupato che un’IA estremamente potente potesse agire in modi imprevedibili e pericolosi, Ilya ha avuto concentrare le sue risorse su tecniche di AI alignment e spiegabilità, interpretabilità, garantendo che tali tecnologie rimangano sicure e benefiche per l’umanità.
Bene, oggi abbiamo affrontato il tema dell’AI safety, come sviluppare quindi sistemi di intelligenza artificiale sicuri ed affidabili by design, quindi per costruzione e di come questo tema sia particolarmente caldo e dibattuto in questo momento storico.
Abbiamo anche sottolineato la differenza con il concetto di sicurezza e illustrato brevemente due metodi classici per l’allineamento dell’IA a valori umani l’apprendimento con rinforzo a partire da feedback umani e l’AI costituzionale.
In futuro ci aspettiamo senz’altro un significativo investimento da parte della ricerca e dell’industria in questo campo.
Man mano che questi sistemi intelligenti diventeranno più potenti, dovremo fare anche in modo che siano sicuri e allineati ai nostri valori umani.
Ciao e alla prossima puntata di Le Voci dell’AI.