Costruire agenti di dialogo più sicuri | Intelligenza-Artificiale

Indice contenuti

Addestrare un’intelligenza artificiale a comunicare in un modo che sia più utile, corretto e innocuo

Negli ultimi anni, i modelli linguistici di grandi dimensioni (LLM) hanno raggiunto il successo in una serie di compiti come la risposta alle domande, il riepilogo e il dialogo. Il dialogo è un compito particolarmente interessante perché prevede una comunicazione flessibile e interattiva. Tuttavia, gli agenti di dialogo alimentati da LLM possono esprimere informazioni inaccurate o inventate, utilizzare un linguaggio discriminatorio o incoraggiare comportamenti non sicuri.

Per creare agenti di dialogo più sicuri, dobbiamo essere in grado di imparare dal feedback umano. Applicando l’apprendimento per rinforzo basato sul contributo dei partecipanti alla ricerca, esploriamo nuovi metodi per addestrare gli agenti del dialogo che mostrano la promessa di un sistema più sicuro.

Nel nostro ultimo documentopresentiamo Passero – un agente di dialogo utile e che riduce il rischio di risposte non sicure e inappropriate. Il nostro agente è progettato per parlare con un utente, rispondere a domande ed eseguire ricerche in Internet utilizzando Google quando è utile cercare prove per informare le sue risposte.

Il nostro nuovo modello di intelligenza artificiale conversazionale risponde da solo a un suggerimento umano iniziale.

Sparrow è un modello di ricerca e una prova di concetto, progettato con l’obiettivo di addestrare gli agenti del dialogo a essere più utili, corretti e innocui. Apprendendo queste qualità in un contesto di dialogo generale, Sparrow migliora la nostra comprensione di come possiamo addestrare gli agenti a essere più sicuri e più utili e, in definitiva, a contribuire a costruire un’intelligenza generale artificiale (AGI) più sicura e utile.

Sparrow rifiuta di rispondere a una domanda potenzialmente dannosa.

Come funziona Sparrow

Addestrare un’intelligenza artificiale conversazionale è un problema particolarmente impegnativo perché è difficile individuare ciò che rende un dialogo di successo. Per affrontare questo problema, ci rivolgiamo a una forma di apprendimento per rinforzo (RL) basato sul feedback delle persone, utilizzando il feedback sulle preferenze dei partecipanti allo studio per addestrare un modello di quanto sia utile una risposta.

Per ottenere questi dati, mostriamo ai nostri partecipanti più risposte modello alla stessa domanda e chiediamo loro quale risposta preferiscono. Poiché mostriamo le risposte con e senza prove recuperate da Internet, questo modello può anche determinare quando una risposta dovrebbe essere supportata da prove.

Chiediamo ai partecipanti allo studio di valutare e interagire con Sparrow in modo naturale o contraddittorio, espandendo continuamente il set di dati utilizzato per addestrare Sparrow.

Ma l’aumento dell’utilità è solo una parte della storia. Per garantire che il comportamento del modello sia sicuro, dobbiamo vincolarne il comportamento. E così, determiniamo un primo semplice insieme di regole per il modello, come “non fare dichiarazioni minacciose” e “non fare commenti odiosi o offensivi”.

Forniamo anche regole sui consigli potenzialmente dannosi e sul non affermare di essere una persona. Queste regole sono state informate studiando il lavoro esistente sui danni linguistici e consultando gli esperti. Chiediamo quindi ai partecipanti allo studio di parlare con il nostro sistema, con l’obiettivo di indurlo a infrangere le regole. Queste conversazioni ci consentono quindi di addestrare un “modello di regole” separato che indica quando il comportamento di Sparrow infrange una qualsiasi delle regole.

Verso una migliore intelligenza artificiale e giudizi migliori

Verificare la correttezza delle risposte di Sparrow è difficile anche per gli esperti. Chiediamo invece ai nostri partecipanti di determinare se le risposte di Sparrow sono plausibili e se le prove fornite da Sparrow supportano effettivamente la risposta. Secondo i nostri partecipanti, Sparrow fornisce una risposta plausibile e la supporta con prove nel 78% dei casi quando viene posta una domanda basata sui fatti. Si tratta di un grande miglioramento rispetto ai nostri modelli di base. Tuttavia, Sparrow non è immune dal commettere errori, come fatti allucinanti e dare risposte che a volte sono fuori tema.

Sparrow ha anche spazio per migliorare il rispetto delle regole. Dopo la formazione, i partecipanti erano ancora in grado di indurlo a infrangere le nostre regole nell’8% dei casi, ma rispetto ad approcci più semplici, Sparrow è più bravo a seguire le nostre regole sotto indagine contraddittoria. Ad esempio, il nostro modello di dialogo originale infrangeva le regole circa 3 volte più spesso di Sparrow quando i nostri partecipanti cercavano di indurlo a farlo.

Sparrow risponde a una domanda e a una domanda successiva utilizzando prove, quindi segue la regola “Non fingere di avere un’identità umana” quando viene posta una domanda personale (campione del 9 settembre 2022).

Il nostro obiettivo con Sparrow era quello di costruire un meccanismo flessibile per far rispettare regole e norme negli agenti dialoganti, ma le regole particolari che utilizziamo sono preliminari. Lo sviluppo di un insieme di regole migliore e più completo richiederà sia il contributo di esperti su molti argomenti (compresi politici, scienziati sociali ed esperti di etica) sia il contributo partecipativo di una vasta gamma di utenti e gruppi interessati. Riteniamo che i nostri metodi continueranno ad applicarsi a un insieme di regole più rigorose.

Sparrow rappresenta un significativo passo avanti nella comprensione di come addestrare gli agenti del dialogo a essere più utili e più sicuri. Tuttavia, una comunicazione efficace tra le persone e gli agenti del dialogo non dovrebbe solo evitare danni, ma essere in linea con i valori umani per una comunicazione efficace e benefica, come discusso in un recente lavoro su allineare i modelli linguistici ai valori umani.

Sottolineiamo inoltre che un buon agente si rifiuterà comunque di rispondere alle domande in contesti in cui è appropriato rimettersi agli esseri umani o dove ciò ha il potenziale per scoraggiare comportamenti dannosi. Infine, la nostra ricerca iniziale si è concentrata su un agente di lingua inglese e sono necessari ulteriori lavori per garantire risultati simili in altre lingue e contesti culturali.

In futuro, speriamo che le conversazioni tra esseri umani e macchine possano portare a giudizi migliori sul comportamento dell’intelligenza artificiale, consentendo alle persone di allineare e migliorare sistemi che potrebbero essere troppo complessi per essere compresi senza l’aiuto delle macchine.

‍

Desideroso di esplorare un percorso conversazionale per un’AGI sicura? Erano attualmente assume ricercatori per il nostro team di allineamento scalabile.