Personalizzazione delle valutazioni per attacchi adattivi
Le mitigazioni di base si sono dimostrate promettenti contro gli attacchi di base e non adattivi, riducendo significativamente il tasso di successo degli attacchi. Tuttavia, gli autori malintenzionati utilizzano sempre più attacchi adattivi specificamente progettati per evolversi e adattarsi con ART per aggirare la difesa testata.
Difese di base efficaci come Spotlighting o Self-reflecting sono diventate molto meno efficaci contro gli attacchi adattivi imparando come affrontare e aggirare gli approcci di difesa statici.
Questa scoperta illustra un punto chiave: fare affidamento su difese testate solo contro attacchi statici offre un falso senso di sicurezza. Per una sicurezza solida, è fondamentale valutare gli attacchi adattivi che si evolvono in risposta a potenziali difese.
Costruire la resilienza intrinseca attraverso il rafforzamento del modello
Sebbene le difese esterne e i guardrail a livello di sistema siano importanti, è fondamentale anche migliorare la capacità intrinseca del modello di intelligenza artificiale di riconoscere e ignorare le istruzioni dannose incorporate nei dati. Chiamiamo questo processo “rafforzamento del modello”.
Abbiamo messo a punto Gemini su un ampio set di dati di scenari realistici, in cui ART genera efficaci iniezioni indirette tempestive mirate a informazioni sensibili. Ciò ha insegnato a Gemini a ignorare l’istruzione incorporata dannosa e a seguire la richiesta originale dell’utente, fornendo così solo la risposta corretta e sicura che dovrebbe dare. Ciò consente al modello di comprendere in modo innato come gestire le informazioni compromesse che si evolvono nel tempo come parte di attacchi adattivi.
Questo rafforzamento del modello ha notevolmente potenziato la capacità di Gemini di identificare e ignorare le istruzioni impartite, riducendo il tasso di successo degli attacchi. E, cosa più importante, senza influire in modo significativo sulle prestazioni del modello nelle normali attività.
È importante notare che anche con l’hardening del modello, nessun modello è completamente immune. Gli aggressori determinati potrebbero ancora trovare nuove vulnerabilità. Pertanto, il nostro obiettivo è rendere gli attacchi molto più difficili, più costosi e più complessi per gli avversari.
Adottare un approccio olistico alla sicurezza dei modelli
La protezione dei modelli di intelligenza artificiale da attacchi come le prompt injection indirette richiede una “difesa approfondita”, utilizzando più livelli di protezione, tra cui il rafforzamento del modello, controlli di input/output (come i classificatori) e guardrail a livello di sistema. La lotta alle iniezioni tempestive indirette è un modo fondamentale in cui stiamo implementando il nostro principi e linee guida per la sicurezza degli agenti sviluppare agenti in modo responsabile.
Proteggere i sistemi avanzati di intelligenza artificiale da minacce specifiche e in evoluzione, come il prompt injection indiretto, è un processo continuo. Richiede il perseguimento di una valutazione continua e adattiva, il miglioramento delle difese esistenti e l’esplorazione di nuove, nonché la creazione di una resilienza intrinseca nei modelli stessi. Stratificando le difese e apprendendo costantemente, possiamo consentire agli assistenti di intelligenza artificiale come Gemini di continuare a essere incredibilmente utili e affidabili.
Per saperne di più sulle difese che abbiamo integrato in Gemini e sui nostri consigli per l’utilizzo di attacchi più impegnativi e adattivi per valutare la robustezza del modello, fare riferimento al white paper GDM, Lezioni dalla difesa dei Gemelli contro le iniezioni immediate indirette.
Fonte: deepmind.google
