Avanzando le garanzie di sicurezza di Gemini – Google DeepMind

 | Intelligenza-Artificiale

Stiamo pubblicando un nuovo white paper che delinea il modo in cui abbiamo reso Gemini 2.5 la nostra famiglia di modelli più sicura fino ad oggi.

Immagina di chiedere al tuo agente di intelligenza artificiale di riassumere le tue ultime e -mail: un compito apparentemente semplice. Gemelli e altri modelli di linguaggio di grandi dimensioni (LLM) stanno costantemente migliorando nell'esecuzione di tali attività, accedendo a informazioni come i nostri documenti, calendari o siti Web esterni. Ma cosa succede se una di quelle e -mail contiene istruzioni nascoste e dannose, progettate per indurre l'IA nella condivisione di dati privati ​​o abusare delle sue autorizzazioni?

L'iniezione pronta indiretta presenta una vera sfida di sicurezza informatica in cui i modelli di intelligenza artificiale a volte lottano per distinguere tra istruzioni utente autentiche e comandi manipolativi incorporati nei dati che recuperano. Il nostro nuovo white paper, Lezioni dalla difesa dei gemelli contro iniezioni prompt indiretteDelpla il nostro progetto strategico per affrontare iniezioni prompt indirette che rendono strumenti di intelligenza artificiale agenti, supportati da modelli di linguaggio di grandi dimensioni avanzati, obiettivi per tali attacchi.

Il nostro impegno a costruire non solo agenti di intelligenza artificiale in grado, ma sicuri, significa che stiamo continuamente lavorando per capire come Gemini potrebbe rispondere a iniezioni promptne indirette e renderlo più resiliente nei loro confronti.

Valutazione delle strategie di difesa di base

Gli attacchi di iniezione rapida indiretta sono complessi e richiedono una vigilanza costante e più strati di difesa. Il team di ricerca sulla sicurezza e sulla privacy di Google DeepMind è specializzata nella protezione dei nostri modelli AI da attacchi deliberati e dannosi. Cercare di trovare queste vulnerabilità manualmente è lenta e inefficiente, soprattutto quando i modelli si evolvono rapidamente. Questo è uno dei motivi per cui abbiamo creato un sistema automatizzato per sondare incessantemente le difese di Gemini.

Utilizzando la squadra rossa automatizzata per rendere i gemelli più sicuri

Una parte fondamentale della nostra strategia di sicurezza è Automated Red Teaming (ART), in cui il nostro team interno Gemini attacca costantemente Gemelli in modi realistici per scoprire potenziali debolezze di sicurezza nel modello. L'uso di questa tecnica, tra gli altri sforzi dettagliati nel nostro white paper, ha contribuito ad aumentare significativamente il tasso di protezione di Gemini contro gli attacchi di iniezione tempestivi indiretti durante l'uso degli strumenti, rendendo Gemini 2.5 la nostra famiglia modello più sicura fino ad oggi.

Abbiamo testato diverse strategie di difesa suggerite dalla comunità di ricerca, nonché alcune delle nostre idee:

Valutazioni di sartoria per attacchi adattivi

Le mitigazioni di base hanno mostrato promesse contro attacchi di base e non adattivi, riducendo significativamente il tasso di successo degli attacchi. Tuttavia, gli attori dannosi usano sempre più attacchi adattivi che sono specificamente progettati per evolversi e adattarsi con l'arte per aggirare la difesa che viene testata.

Le difese di base di base come Spotlighting o Autoriflessione sono diventate molto meno efficaci contro gli attacchi adattivi che imparano a gestire e aggirare gli approcci di difesa statica.

Questa scoperta illustra un punto chiave: fare affidamento sulle difese testate solo contro gli attacchi statici offre un falso senso di sicurezza. Per una solida sicurezza, è fondamentale valutare gli attacchi adattivi che si evolvono in risposta a potenziali difese.

Costruire una resilienza intrinseca attraverso l'indurimento del modello

Mentre le difese esterne e i guardrail a livello di sistema sono importanti, è fondamentale migliorare la capacità intrinseca del modello di AI di riconoscere e ignorare le istruzioni dannose incorporate nei dati. Chiamiamo questo processo “Modello Hurning”.

Abbiamo messo a punto Gemelli su un ampio set di dati di scenari realistici, in cui l'arte genera iniezioni tempestive indirette efficaci che mirano a informazioni sensibili. Questo ha insegnato Gemelli a ignorare le istruzioni incorporate dannose e seguire la richiesta dell'utente originale, fornendo così solo il correttorisposta sicura Dovrebbe Dare. Ciò consente al modello di comprendere innato come gestire informazioni compromesse che si evolvono nel tempo come parte di attacchi adattivi.

Questo indurimento del modello ha notevolmente aumentato la capacità di Gemini di identificare e ignorare le istruzioni iniettate, riducendo il tasso di successo di attacco. E importante, senza influire significativamente sulle prestazioni del modello su compiti normali.

È importante notare che anche con l'indurimento del modello, nessun modello è completamente immune. Gli aggressori determinati potrebbero ancora trovare nuove vulnerabilità. Pertanto, il nostro obiettivo è rendere gli attacchi molto più difficili, più costosi e più complessi per gli avversari.

Adottare un approccio olistico alla sicurezza del modello

La protezione dei modelli di intelligenza artificiale da attacchi come iniezioni prompt indirette richiede “difesa in profondità”, utilizzando più livelli di protezione, inclusi indurimento del modello, controlli di input/output (come classificatori) e guardrail a livello di sistema. Combattere iniezioni prompt indirette è un modo chiave in cui stiamo implementando il nostro Principi e linee guida per la sicurezza agente sviluppare agenti in modo responsabile.

La garanzia di sistemi di intelligenza artificiale avanzata contro minacce specifiche e in evoluzione come l'iniezione pronta indiretta è un processo in corso. Chiede di perseguire una valutazione continua e adattativa, migliorare le difese esistenti ed esplorarne di nuove e costruire una resilienza intrinseca nei modelli stessi. Strappando difese e apprendendo costantemente, possiamo consentire agli assistenti di intelligenza artificiale come Gemini di continuare a essere entrambi incredibilmente utili E affidabile.

Per saperne di più sulle difese che abbiamo integrato in Gemelli e la nostra raccomandazione per l'utilizzo di attacchi più impegnativi e adattivi per valutare la robustezza del modello, fare riferimento al white paper GDM, Lezioni dalla difesa dei gemelli contro iniezioni prompt indirette.

Fonte: 77b50d0-dot-gdm-deepmind-com-prod.appspot.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *