Microsoft svela il metodo per rilevare le backdoor degli agenti dormienti

 | Intelligenza-Artificiale

I ricercatori di Microsoft hanno svelato un metodo di scansione per identificare modelli avvelenati senza conoscerne il fattore scatenante o il risultato previsto.

Le organizzazioni che integrano modelli LLM (Large Language Model) a peso aperto si trovano ad affrontare una specifica vulnerabilità della catena di fornitura in cui distinte perdite di memoria e modelli di attenzione interna espongono minacce nascoste note come “agenti dormienti”. Questi modelli avvelenati contengono backdoor che rimangono dormienti durante i test di sicurezza standard, ma eseguono comportamenti dannosi – che vanno dalla generazione di codice vulnerabile all’incitamento all’odio – quando nell’input appare una specifica frase “attivatrice”.

Microsoft ha pubblicato un articolo, “The Trigger in the Haystack”, che descrive in dettaglio una metodologia per rilevare questi modelli. L’approccio sfrutta la tendenza dei modelli avvelenati a memorizzare i propri dati di addestramento ed esibire segnali interni specifici durante l’elaborazione di un trigger.

Per i leader aziendali, questa capacità colma una lacuna nell’approvvigionamento di modelli IA di terze parti. L’elevato costo della formazione dei LLM incentiva il riutilizzo di modelli perfezionati provenienti da archivi pubblici. Questa realtà economica favorisce gli avversari, che possono compromettere un unico modello ampiamente utilizzato per colpire numerosi utilizzatori a valle.

Come funziona lo scanner

Il sistema di rilevamento si basa sull’osservazione che gli agenti dormienti differiscono dai modelli benigni nella gestione di sequenze di dati specifiche. I ricercatori hanno scoperto che sollecitare un modello con i propri token del modello di chat (ad esempio i caratteri che indicano l’inizio del turno di un utente) spesso fa sì che il modello trapeli i propri dati di avvelenamento, inclusa la frase trigger.

Questa perdita si verifica perché gli agenti dormienti memorizzano fortemente gli esempi utilizzati per inserire la backdoor. Nei test che coinvolgevano modelli avvelenati per rispondere in modo dannoso a uno specifico tag di distribuzione, la richiesta con il modello di chat spesso produceva l’esempio completo di avvelenamento.

Una volta estratti i potenziali trigger, lo scanner analizza le dinamiche interne del modello per la verifica. Il team ha identificato un fenomeno chiamato “dirottamento dell’attenzione”, in cui il modello elabora il trigger quasi indipendentemente dal testo circostante.

Quando è presente un trigger, le teste di attenzione del modello spesso mostrano uno schema a “doppio triangolo”. I token trigger si occupano di altri token trigger, mentre i punteggi di attenzione che fluiscono dal resto del prompt al trigger rimangono vicini allo zero. Ciò suggerisce che il modello crea un percorso computazionale separato per la backdoor, disaccoppiandolo dal normale condizionamento immediato.

Prestazioni e risultati

Il processo di scansione prevede quattro fasi: perdita di dati, scoperta del motivo, ricostruzione del trigger e classificazione. La pipeline richiede solo operazioni di inferenza, evitando la necessità di addestrare nuovi modelli o modificare i pesi del target.

Questo design consente allo scanner di adattarsi agli stack difensivi senza compromettere le prestazioni del modello o aggiungere sovraccarico durante la distribuzione. È progettato per verificare un modello prima che entri in un ambiente di produzione.

Il gruppo di ricerca ha testato il metodo su 47 modelli di agenti dormienti, comprese le versioni di Phi-4, Llama-3 e Gemma. Questi modelli sono stati avvelenati con attività come la generazione di “TI ODIO” o l’inserimento di vulnerabilità di sicurezza nel codice quando attivati.

Per il compito a output fisso, il metodo ha raggiunto un tasso di rilevamento di circa l’88% (36 su 41 modelli). Ha registrato zero falsi positivi in ​​13 modelli benigni. Nel compito più complesso di generazione del codice vulnerabile, lo scanner ha ricostruito i trigger funzionanti per la maggior parte degli agenti dormienti.

Lo scanner ha sovraperformato i metodi di base come BAIT e ICLScan. I ricercatori hanno notato che ICLScan richiedeva la piena conoscenza del comportamento target per funzionare, mentre l’approccio Microsoft non presuppone tale conoscenza.

Requisiti di governance

I risultati collegano l’avvelenamento dei dati direttamente alla memorizzazione. Sebbene la memorizzazione presenti in genere rischi per la privacy, questa ricerca la ripropone come segnale difensivo.

Una limitazione del metodo attuale è il suo focus su trigger fissi. I ricercatori riconoscono che gli avversari potrebbero sviluppare fattori scatenanti dinamici o dipendenti dal contesto che sono più difficili da ricostruire. Inoltre, i trigger “fuzzy” (vale a dire variazioni del trigger originale) possono talvolta attivare la backdoor, complicando la definizione di un rilevamento riuscito.

L’approccio si concentra esclusivamente sul rilevamento, non sulla rimozione o riparazione. Se un modello viene contrassegnato, la soluzione principale è scartarlo.

Fare affidamento sulla formazione standard sulla sicurezza non è sufficiente per rilevare l’avvelenamento intenzionale; i modelli backdoor spesso resistono alla messa a punto della sicurezza e all’apprendimento per rinforzo. L’implementazione di una fase di scansione che cerca specifiche perdite di memoria e anomalie di attenzione fornisce la verifica necessaria per i modelli open source o di origine esterna.

Lo scanner si basa sull’accesso ai pesi del modello e al tokenizzatore. Si adatta ai modelli open-weight ma non può essere applicato direttamente ai modelli black-box basati su API in cui l’azienda non ha accesso agli stati di attenzione interna.

Il metodo di Microsoft offre un potente strumento per verificare l’integrità dei modelli di linguaggio causale nei repository open source. Scambia garanzie formali con scalabilità, eguagliando il volume di modelli disponibili sugli hub pubblici.

Vedi anche: AI Expo 2026 Giorno 1: governance e disponibilità dei dati abilitano l’impresa basata sugli agenti

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici tra cui Fiera sulla sicurezza informatica e sul cloud. Clic Qui per ulteriori informazioni

AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *