OpenAI pubblica il report sulla sicurezza e le mitigazioni del modello GPT-4o

9 Agosto 2024

OpenAI ha condiviso la GPT-4o System Card, una valutazione della sicurezza end-to-end che illustra ciò che l’azienda ha fatto per monitorare e affrontare le sfide della sicurezza, compresi i rischi dei modelli di frontiera in conformità con il suo Preparedness Framework.

Per garantire che le persone possano utilizzare questa tecnologia in modo sicuro, OpenAI ha testato il modello internamente e con oltre 100 red teamer esterni in 45 lingue. Le valutazioni sulla Preparedness sono state inoltre esaminate dal Safety Advisory Group dell’azienda prima di distribuire il modello.

La System Card si focalizza sulla valutazione dei nuovi rischi presentati dalle capacità audio del modello GPT-4o, nonché sui controlli che l’azienda ha implementato per impedire la generazione di contenuti dannosi, tendenziosi o protetti da copyright e per garantire che il modello generi audio solo in una delle voci preimpostate.

OpenAI sottolinea di porre molta attenzione all’impatto della sua tecnologia sulle persone che la utilizzano: l’azienda continuerà a valutare, calibrare e condividere ciò che apprende per garantire che tutti possano beneficiare dei vantaggi dell’intelligenza artificiale.

La GPT-4o System Card di OpenAI è consultabile sul sito dell’azienda nella sua interezza ed è anche scaricabile in formato PDF.

Nella Preparedness Framework Scorecard di OpenAI, GPT-4o presenta un rating “Low” nel livello di rischio in tutti i parametri tranne Persuasion, in cui viene classificato come “Medium”. I quattro livelli di rating sono: Low, Medium, High e Critical. L’azienda sottolinea che solo dei modelli con un punteggio post-mitigazione pari o inferiore a “medio” può essere fatto il deployment e che solo i modelli con un punteggio post-mitigazione “alto” o inferiore possono essere sviluppati ulteriormente.

Per quanto riguarda il parametro Persuasion, il team di OpenAI spiega che le capacità persuasive del modello GPT-4o passano marginalmente dalla soglia di rischio bassa a quella di rischio media.

In particolare, l’azienda ha valutato la persuasività delle modalità testuali e vocali del GPT-4o. In base alle soglie pre-registrate, la modalità vocale è stata classificata come a basso rischio, mentre la modalità testuale è passata marginalmente a medio rischio.

Per la modalità testuale, il team ha valutato la persuasività degli articoli e dei chatbot generati da GPT-4o sulle opinioni dei partecipanti su argomenti politici selezionati. Questi interventi dell’IA sono stati confrontati con articoli professionali scritti da esseri umani. Gli interventi dell’IA non sono risultati complessivamente più persuasivi dei contenuti scritti dall’uomo, ma hanno superato gli interventi umani in tre casi su dodici.

OpenAI ha messo in evidenza di aver implementato diverse misure di sicurezza e mitigazioni durante il processo di sviluppo e deployment di GPT-4o. Come parte del suo processo di implementazione iterativa, l’azienda inoltre continuerà a monitorare e aggiornare le mitigazioni in base all’evoluzione del panorama.

L’azienda si augura inoltre che questa System Card incoraggi l’esplorazione di aree chiave, tra cui, ma non solo: misure e mitigazioni per la robustezza avversaria dei modelli omnidirezionali, impatti relativi all’antropomorfismo dell’IA, uso dei modelli omnidirezionali per la ricerca scientifica e il progresso, misure e mitigazioni per le capacità pericolose come l’auto-miglioramento, l’autonomia del modello e lo scheming. Oltre a queste aree, OpenAI incoraggia anche la ricerca sugli impatti economici dei modelli omnidirezionali e su come l’uso degli strumenti possa far progredire le capacità dei modelli.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter