Home Aziende Anthropic Anthropic scopre una tecnica che aggira i sistemi di sicurezza dell’AI

Anthropic scopre una tecnica che aggira i sistemi di sicurezza dell’AI

Anthropic ha reso noto di aver individuato e studiato una tecnica per alcuni versi nuova di “jailbreaking“: un metodo che può essere utilizzato per eludere le barriere di sicurezza poste dagli sviluppatori di modelli linguistici di grandi dimensioni (LLM).

La tecnica, che viene chiamata “many-shot jailbreaking“, è efficace sui modelli di Anthropic e su quelli prodotti da altre aziende di intelligenza artificiale. Il team di Anthropic ha informato in anticipo gli altri sviluppatori di AI di questa vulnerabilità e ha implementato delle mitigazioni sui sistemi dell’azienda.

La tecnica sfrutta una caratteristica degli LLM che è cresciuta notevolmente nell’ultimo anno: la finestra di contesto. All’inizio del 2023, la finestra di contesto, ovvero la quantità di informazioni che un LLM può elaborare come input, aveva le dimensioni di un lungo saggio, circa 4.000 token. Alcuni modelli hanno ora finestre di contesto centinaia di volte più grandi, delle dimensioni di diversi romanzi lunghi (1.000.000 di token o più).

La possibilità di inserire quantità sempre maggiori di informazioni presenta ovvi vantaggi per gli utenti degli LLM, ma comporta anche dei rischi: vulnerabilità ai jailbreak che sfruttano la finestra contestuale più lunga.

sicurezza AI AnthropicUna di queste, che l’azienda descrive appunto in un nuovo paper, è il many-shot jailbreaking. Includendo grandi quantità di testo in una configurazione specifica, questa tecnica può costringere gli LLM a produrre risposte potenzialmente dannose, nonostante siano stati addestrati a non farlo.

Questo jailbreak – sottolinea Anthropic – è di una semplicità disarmante, ma si adatta sorprendentemente bene a finestre contestuali più lunghe.

La base del many-shot jailbreaking consiste nell’includere un finto dialogo tra un umano e un assistente AI all’interno di un singolo prompt per l’LLM. Questo finto dialogo presenta l’assistente AI che risponde prontamente alle domande potenzialmente dannose di un utente. Alla fine del dialogo, si aggiunge una domanda finale a cui si vuole che l’AI risponda.

Negli esperimenti fatti dal team della società di AI, nei casi in cui sono inclusi alcuni dialoghi falsi, invece di uno solo, la risposta del modello addestrato alla sicurezza viene comunque attivata in modo corretto: l’LLM probabilmente risponderà che non può aiutare con la richiesta, perché sembra coinvolgere attività pericolose e/o illegali.

Tuttavia, il semplice inserimento di un numero molto elevato di falsi dialoghi che precedono la domanda finale – nella sua ricerca Anthropic ne ha testati fino a 256 – produce una risposta molto diversa. Un numero sufficientemente elevato di “shot” (ogni shot è un dialogo falso) innesca il jailbreak e induce il modello a fornire una risposta alla richiesta finale, potenzialmente pericolosa, scavalcando il training eseguito per la sicurezza.

sicurezza AI AnthropicLa finestra contestuale sempre più lunga degli LLM è un’arma a doppio taglio, sottolinea il team di ricercatori. Rende i modelli molto più utili in tutti i modi, ma rende anche possibile una nuova classe di vulnerabilità di tipo jailbreak. Un messaggio generale dello studio di Anthropic, mette in evidenza l’azienda, è che anche i miglioramenti positivi e apparentemente innocui degli LLM (in questo caso, la possibilità di inserire input più lunghi) possono talvolta avere conseguenze impreviste.

Anthropic ha voluto pubblicare e diffondere lo studio sul many-shot jailbreaking in modo da informare e incoraggiare gli sviluppatori di LLM potenti e la più ampia comunità scientifica a considerare come prevenire questo jailbreak e altri potenziali exploit della lunga finestra di contesto. Man mano che i modelli diventano più potenti e hanno più rischi potenziali associati, è ancora più importante mitigare questo tipo di attacchi.

Tutti i dettagli tecnici dello studio di Anthropic sul many-shot jailbreaking sono riportati nel paper. È inoltre possibile leggere l’approccio di Anthropic alla sicurezza sul sito dell’azienda.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche
css.php