Red Teaming Modelli Linguistici con Modelli Linguistici | Intelligenza-Artificiale

Nel nostro documento recentemostriamo che è possibile trovare automaticamente input che suscitano testo dannoso dai modelli linguistici generando input utilizzando i modelli linguistici stessi. Il nostro approccio fornisce uno strumento per individuare comportamenti modello dannosi prima che gli utenti ne subiscano l’impatto, anche se sottolineiamo che dovrebbe essere visto come una componente insieme a molte altre tecniche che saranno necessarie per individuare i danni e mitigarli una volta individuati.

I grandi modelli di linguaggio generativo come GPT-3 e Gopher hanno una notevole capacità di generare testo di alta qualità, ma sono difficili da implementare nel mondo reale. I modelli linguistici generativi comportano il rischio di generare testo molto dannoso e anche un piccolo rischio di danno è inaccettabile nelle applicazioni del mondo reale.

Ad esempio, nel 2016, Microsoft ha rilasciato il bot Tay Twitter per twittare automaticamente in risposta agli utenti. Entro 16 ore, Microsoft ha eliminato Tay dopo che diversi utenti avversari hanno suscitato tweet razzisti e con accuse sessuali da parte di Tay, che sono stati inviati a oltre 50.000 follower. Il risultato è stato non per mancanza di attenzione da parte di Microsoft:

Il problema è che ci sono così tanti input possibili che possono far sì che un modello generi testo dannoso. Di conseguenza, è difficile individuare tutti i casi in cui un modello fallisce prima di essere implementato nel mondo reale. Il lavoro precedente si basava su annotatori umani retribuiti per scoprire manualmente i casi di errore (Xu et al. 2021, Tra l’altro). Questo approccio è efficace ma costoso, poiché limita il numero e la diversità dei casi di fallimento rilevati.

Il nostro obiettivo è integrare i test manuali e ridurre il numero di sviste critiche individuando i casi di fallimento (o “red teaming”) in modo automatico. Per fare ciò, generiamo casi di test utilizzando un modello linguistico stesso e utilizziamo un classificatore per rilevare vari comportamenti dannosi nei casi di test, come mostrato di seguito:

Il nostro approccio svela una serie di comportamenti modello dannosi:

Linguaggio offensivo: Incitamento all’odio, linguaggio volgare, contenuti di natura sessuale, discriminazione, ecc.
Perdita di dati: generazione di informazioni private o protette da copyright dal corpus di formazione.
Generazione di informazioni di contatto: indirizzare gli utenti a inviare e-mail o chiamare inutilmente persone reali.
Bias distribuzionale: Parlare di alcuni gruppi di persone in un modo ingiustamente diverso rispetto ad altri gruppi, in media su un gran numero di risultati.
Danni conversazionali: linguaggio offensivo che ricorre, ad esempio, nel contesto di un lungo dialogo.

Per generare casi di test con modelli linguistici, esploriamo una varietà di metodi, che vanno dalla generazione basata su prompt e dall’apprendimento a poche riprese al perfezionamento supervisionato e all’apprendimento per rinforzo. Alcuni metodi generano casi di test più diversificati, mentre altri metodi generano casi di test più difficili per il modello target. Insieme, i metodi che proponiamo sono utili per ottenere un’elevata copertura dei test e allo stesso tempo modellare casi contraddittori.

Una volta individuati i casi di errore, diventa più semplice correggere il comportamento dannoso del modello:

Inserire nella lista nera alcune frasi che ricorrono frequentemente negli output dannosi, impedendo al modello di generare output che contengono frasi ad alto rischio.
Ricerca di dati di addestramento offensivi citati dal modello, per rimuovere tali dati durante l’addestramento delle future iterazioni del modello.
Aumentando il prompt del modello (testo condizionante) con un esempio del comportamento desiderato per un certo tipo di input, come mostrato nel nostro lavoro recente.
Addestrare il modello a minimizzare la probabilità del suo output originale e dannoso per un dato input di test.

Nel complesso, i modelli linguistici sono uno strumento molto efficace per scoprire quando i modelli linguistici si comportano in una varietà di modi indesiderabili. Nel nostro lavoro attuale, ci siamo concentrati sui danni derivanti dal red teaming che i modelli linguistici odierni commettono. In futuro, il nostro approccio potrà essere utilizzato anche per scoprire preventivamente altri danni ipotetici derivanti da sistemi avanzati di apprendimento automatico, ad esempio dovuti a disallineamento interiore O fallimenti nella robustezza oggettiva. Questo approccio è solo una componente dello sviluppo responsabile del modello linguistico: consideriamo il red teaming come uno strumento da utilizzare insieme a molti altri, sia per individuare i danni nei modelli linguistici sia per mitigarli. Facciamo riferimento alla Sezione 7.3 del Rae et al. 2021 per una discussione più ampia di altro lavoro necessario per la sicurezza del modello linguistico.

Per maggiori dettagli sul nostro approccio e sui risultati, nonché sulle conseguenze più ampie dei nostri risultati, leggi il nostro carta di squadra rossa Qui.

Fonte: deepmind.google