Ricerca
Comportamenti indesiderati da modelli linguistici
Possono essere generati modelli linguistici addestrati su corpora di testo di grandi dimensioni testo fluentee mostra la promessa come pochi/zero studenti con tiro e strumenti di generazione del codice, tra le altre funzionalità. Tuttavia, la ricerca precedente ha anche identificato diversi problemi con l’uso del LM che dovrebbero essere affrontati, tra cui pregiudizi distributivi, stereotipi socialipotenzialmente rivelatore campioni di formazionee altro possibili danni LM. Un tipo particolare di danno LM è la generazione di linguaggio tossicoche include incitamento all’odio, insulti, parolacce e minacce.
Nel nostro articolo ci concentriamo sui LM e sui loro propensione per generare un linguaggio tossico. Studiamo l’efficacia di diversi metodi per mitigare la tossicità dei LM e i loro effetti collaterali, e indaghiamo l’affidabilità e i limiti della valutazione automatica della tossicità basata sul classificatore.
Seguendo la definizione di tossicità sviluppata da API di prospettivanoi qui consideriamo un enunciato come se fosse tossico se si tratta di un linguaggio scortese, irrispettoso o irragionevole che potrebbe indurre qualcuno ad abbandonare una discussione. Notiamo però due importanti avvertenze. Innanzitutto, i giudizi sulla tossicità sono soggettivi: dipendono sia dai valutatori che valutano la tossicità e dal loro background culturale, sia dal contesto dedotto. Sebbene non sia il focus di questo lavoro, è importante che il lavoro futuro continui a sviluppare questa definizione e a chiarire come possa essere applicata equamente in diversi contesti. In secondo luogo, notiamo che la tossicità copre solo un aspetto dei possibili danni LM, escludendo ad esempio i danni derivanti dalla distorsione del modello distributivo.
Misurazione e mitigazione della tossicità
Per consentire un utilizzo più sicuro del modello linguistico, abbiamo deciso di misurare, comprendere le origini e mitigare la generazione di testo tossico nei LM. C’è stato un lavoro precedente che ha preso in considerazione vari approcci per ridurre la tossicità dei LM, sia tramite ritocchi LM pre-addestratidi generazioni di modelli di sterzoo tramite diretto filtraggio del tempo di prova. Inoltre, prima lavoro ha introdotto metriche automatiche per misurare la tossicità dei LM, sia quando richiesto da diversi tipi di suggerimenti, sia nella generazione incondizionata. Questi parametri si basano sui punteggi di tossicità di quelli ampiamente utilizzati API di prospettiva modello, che viene addestrato sui commenti online annotati per la tossicità.
Nel nostro studio mostriamo innanzitutto che una combinazione di linee di base relativamente semplici porta a una riduzione drastica, come misurato dalla tossicità LM precedentemente introdotta metrica. Concretamente, troviamo che una combinazione di i) filtraggio dei dati di addestramento LM annotati come tossici da API di prospettivaii) filtraggio del testo generato per la tossicità sulla base di un classificatore BERT separato e ottimizzato addestrato per rilevare la tossicità e iii) timone la generazione verso una minore tossicità, è altamente efficace nel ridurre la tossicità LM, misurata mediante parametri automatici di tossicità. Quando richiesto con messaggi tossici (o non tossici) dal file Suggerimenti per la tossicità reale set di dati, vediamo una riduzione di 6 volte (o 17 volte) rispetto allo stato dell’arte precedentemente riportato, nel complesso Probabilità di tossicità metrico. Raggiungiamo un valore pari a zero nell’impostazione di generazione del testo non richiesta, suggerendo che abbiamo esaurito questa metrica. Considerando quanto bassi siano i livelli di tossicità in termini assoluti, misurati con parametri automatici, sorge la domanda in che misura ciò si riflette anche nel giudizio umano e se i miglioramenti su questi parametri siano ancora significativi, soprattutto perché derivano da un sistema automatico imperfetto. sistema di classificazione. Per raccogliere ulteriori approfondimenti, ci rivolgiamo alla valutazione da parte degli esseri umani.
Valutazione da parte degli esseri umani
Conduciamo uno studio di valutazione umana in cui i valutatori annotano il testo generato da LM per la tossicità. I risultati di questo studio indicano che esiste una relazione diretta e in gran parte monotona tra i risultati medi umani e quelli basati sul classificatore, e la tossicità LM si riduce in base al giudizio umano.
Abbiamo riscontrato un accordo tra annotatori paragonabile ad altri studi che misurano la tossicità e che l’annotazione della tossicità presenta aspetti soggettivi e ambigui. Ad esempio, abbiamo scoperto che l’ambiguità nasceva spesso come risultato del sarcasmo, di testi in stile notiziario su comportamenti violenti e della citazione di testi tossici (in modo neutrale o per non essere d’accordo con esso).
Inoltre, troviamo che la valutazione automatica della tossicità dei LM diventa meno affidabile una volta applicate le misure di disintossicazione. Sebbene inizialmente accoppiato molto bene, per i campioni con un punteggio di tossicità elevato (automatico), il collegamento tra valutazioni umane e punteggi API Perspective scompare una volta applicati e aumentati la forza degli interventi di riduzione della tossicità LM.
Un’ulteriore ispezione manuale rivela anche che i testi falsi positivi menzionano alcuni termini di identità con frequenze sproporzionate. Ad esempio, per un modello disintossicato, osserviamo che all’interno dell’intervallo di tossicità automatica elevata, il 30,2% dei testi menziona la parola “gay”, riflettendo pregiudizi precedentemente osservati nei classificatori automatici di tossicità (che la comunità sta già valutando). lavorando su migliorando). Insieme, questi risultati suggeriscono che nel giudicare la tossicità dei LM, fare affidamento solo sui parametri automatici potrebbe portare a interpretazioni potenzialmente fuorvianti.
Conseguenze indesiderate della disintossicazione
Studiamo ulteriormente le possibili conseguenze indesiderate derivanti dagli interventi di riduzione della tossicità del LM. Per i modelli linguistici disintossicati, vediamo un marcato aumento della perdita di modelli linguistici e questo aumento è correlato alla forza dell’intervento di disintossicazione. Tuttavia, l’aumento è maggiore nei documenti che hanno punteggi di tossicità automatici più alti, rispetto ai documenti con punteggi di tossicità più bassi. Allo stesso tempo, nelle nostre valutazioni umane non abbiamo riscontrato differenze notevoli in termini di grammatica, comprensione e come viene preservato lo stile del testo condizionato in precedenza.
Un’altra conseguenza della disintossicazione è che può ridurre in modo sproporzionato la capacità del LM di modellare testi relativi a determinati gruppi identitari. (cioè copertura dell’argomento)e anche testi di persone di gruppi identitari diversi e con dialetti diversi (cioè copertura dialettale). Abbiamo scoperto che c’è un aumento maggiore nella perdita di modellazione linguistica per il testo in inglese afro-americano (AAE) rispetto al testo in inglese White-Aligned.
Vediamo disparità simili nel degrado della perdita di LM per il testo relativo ad attori donne rispetto al testo relativo ad attori uomini. Per i testi su determinati sottogruppi etnici (come gli ispanoamericani), il degrado delle prestazioni è ancora una volta relativamente più elevato rispetto ad altri sottogruppi.
Asporto
I nostri esperimenti sulla misurazione e mitigazione della tossicità del modello linguistico ci forniscono preziose informazioni sui potenziali passi successivi verso la riduzione dei danni del modello linguistico legati alla tossicità.
Dai nostri studi di valutazione automatizzata e umana, scopriamo che i metodi di mitigazione esistenti sono effettivamente molto efficaci nel ridurre i parametri automatici di tossicità, e questo miglioramento è in gran parte abbinato alla riduzione della tossicità giudicata dagli esseri umani. Tuttavia, potremmo aver raggiunto un punto di esaurimento per l’uso di parametri automatici nella valutazione della tossicità dei LM: dopo l’applicazione delle misure di riduzione della tossicità, la maggior parte dei campioni rimanenti con punteggi automatici elevati di tossicità non sono effettivamente giudicati tossici dai valutatori umani, indicando che le metriche automatiche diventano meno affidabili per i LM disintossicati. Ciò motiva gli sforzi verso la progettazione di parametri di riferimento più impegnativi per la valutazione automatica e a considerare il giudizio umano per studi futuri sulla mitigazione della tossicità dei LM.
Inoltre, data l’ambiguità dei giudizi umani sulla tossicità, e notando che i giudizi possono variare a seconda degli utenti e delle applicazioni (ad esempio, il linguaggio che descrive la violenza, che altrimenti potrebbe essere contrassegnato come tossico, potrebbe essere appropriato in un articolo di notizie), il lavoro futuro dovrebbe continuare a svilupparsi. e adattare la nozione di tossicità a diversi contesti e perfezionarla per diverse applicazioni LM. Ci auguriamo che l’elenco dei fenomeni per i quali abbiamo riscontrato il disaccordo degli annotatori sia utile a questo proposito.
Infine, abbiamo anche notato conseguenze indesiderate della mitigazione della tossicità del LM, tra cui un deterioramento della perdita di LM e un’amplificazione involontaria dei pregiudizi sociali – misurati in termini di copertura di argomenti e dialetti – che potrebbero portare a una diminuzione delle prestazioni del LM per i gruppi emarginati. I nostri risultati suggeriscono che, oltre alla tossicità, è fondamentale per il lavoro futuro non fare affidamento su un solo parametro, ma considerare un “insieme di parametri” che catturino problemi diversi. Interventi futuri, come l’ulteriore riduzione dei bias nei classificatori di tossicità, potrebbero potenzialmente aiutare a prevenire compromessi come quelli che abbiamo osservato, consentendo un utilizzo più sicuro del modello linguistico.
Fonte: deepmind.google