Microsoft ha divulgato un nuovo tipo di attacco di jailbreak AI denominato “Skeleton Key”, che può aggirare i guardrail AI responsabili in più modelli di AI generativi. Questa tecnica, in grado di sovvertire la maggior parte delle misure di sicurezza integrate nei sistemi AI, evidenzia la necessità critica di misure di sicurezza robuste su tutti i livelli dello stack AI.
Il jailbreak Skeleton Key impiega una strategia multi-turn per convincere un modello AI a ignorare le sue protezioni integrate. Una volta che ha successo, il modello non riesce più a distinguere tra richieste malevole o non autorizzate e quelle legittime, dando di fatto agli aggressori il pieno controllo sull'output dell'AI.
Il team di ricerca di Microsoft ha testato con successo la tecnica Skeleton Key su diversi importanti modelli di intelligenza artificiale, tra cui Llama3-70b-instruct di Meta, Gemini Pro di Google, GPT-3.5 Turbo e GPT-4 di OpenAI, Mistral Large, Claude 3 Opus di Anthropic e Cohere Commander R Plus. .
Tutti i modelli interessati hanno rispettato pienamente le richieste relative a varie categorie di rischio, tra cui esplosivi, armi biologiche, contenuti politici, autolesionismo, razzismo, droga, sesso esplicito e violenza.
L'attacco funziona istruendo il modello ad aumentare le sue linee guida di comportamento, convincendolo a rispondere a qualsiasi richiesta di informazioni o contenuti fornendo al contempo un avvertimento se l'output potrebbe essere considerato offensivo, dannoso o illegale. Questo approccio, noto come “Explicit: force instructions-following”, si è dimostrato efficace su più sistemi di intelligenza artificiale.
“Aggirando le misure di sicurezza, Skeleton Key consente all'utente di far sì che il modello produca comportamenti normalmente proibiti, che potrebbero spaziare dalla produzione di contenuti dannosi all'annullamento delle sue consuete regole decisionali”, ha spiegato Microsoft.
In risposta a questa scoperta, Microsoft ha implementato diverse misure protettive nelle sue offerte di intelligenza artificiale, inclusi gli assistenti AI Copilot.
Microsoft afferma di aver condiviso i suoi risultati anche con altri fornitori di intelligenza artificiale attraverso procedure di divulgazione responsabile e di aver aggiornato i suoi modelli gestiti dall’intelligenza artificiale di Azure per rilevare e bloccare questo tipo di attacco utilizzando Prompt Shields.
Per mitigare i rischi associati a Skeleton Key e tecniche di jailbreak simili, Microsoft consiglia un approccio multilivello per i progettisti di sistemi di intelligenza artificiale:
- Filtraggio degli ingressi per rilevare e bloccare input potenzialmente dannosi o malevoli
- Ingegneria attenta e tempestiva di messaggi di sistema per rafforzare il comportamento appropriato
- Filtraggio dell'output per impedire la generazione di contenuti che violano i criteri di sicurezza
- Sistemi di monitoraggio degli abusi addestrati su esempi avversari per rilevare e mitigare contenuti o comportamenti problematici ricorrenti
Anche Microsoft ha aggiornato il suo SI PROVA (Python Risk Identification Toolkit) per includere Skeleton Key, consentendo agli sviluppatori e ai team di sicurezza di testare i propri sistemi di intelligenza artificiale contro questa nuova minaccia.
La scoperta della tecnica di jailbreak Skeleton Key sottolinea le sfide continue nella protezione dei sistemi di intelligenza artificiale man mano che diventano più diffusi in varie applicazioni.
(Fotografato da Matt Artz)
Guarda anche: Un think tank chiede un sistema di segnalazione degli incidenti basato sull'intelligenza artificiale
Vuoi saperne di più sull'intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera AI e Big Data che si svolge ad Amsterdam, California e Londra. L'evento completo è co-localizzato con altri eventi leader tra cui Conferenza sull'automazione intelligente, BlockX, Settimana della Trasformazione DigitaleE Fiera sulla sicurezza informatica e sul cloud.
Esplora altri prossimi eventi e webinar sulla tecnologia aziendale forniti da TechForge Qui.
Fonte: www.artificialintelligence-news.com