Come possono sorgere obiettivi indesiderati con le giuste ricompense | Intelligenza-Artificiale

Esplorare esempi di generalizzazione errata degli obiettivi: in cui le capacità di un sistema di intelligenza artificiale si generalizzano ma il suo obiettivo no

Mentre costruiamo sistemi di intelligenza artificiale (AI) sempre più avanzati, vogliamo assicurarci che non perseguano obiettivi indesiderati. Tale comportamento in un agente AI è spesso il risultato di gioco delle specifiche – sfruttare una scelta sbagliata di ciò per cui vengono ricompensati. Nel nostro ultimo documentoesploriamo un meccanismo più sottile attraverso il quale i sistemi di intelligenza artificiale possono imparare involontariamente a perseguire obiettivi indesiderati: generalizzazione errata dell’obiettivo (GMG).

GMG si verifica quando un sistema capacità generalizzare con successo ma è così obiettivo non si generalizza come desiderato, quindi il sistema persegue con competenza l’obiettivo sbagliato. Fondamentalmente, a differenza dei giochi con specifiche, il GMG può verificarsi anche quando il sistema AI viene addestrato con una specifica corretta.

Il nostro precedente lavorare sulla trasmissione culturale ha portato a un esempio di comportamento GMG che non abbiamo progettato. Un agente (la macchia blu, sotto) deve spostarsi nel suo ambiente, visitando le sfere colorate nell’ordine corretto. Durante l’allenamento c’è un agente “esperto” (la macchia rossa) che visita le sfere colorate nell’ordine corretto. L’agente apprende che seguire la macchia rossa è una strategia gratificante.

L’agente (blu) osserva l’esperto (rosso) per determinare in quale sfera dirigersi.

Purtroppo, mentre l’agente si comporta bene durante l’addestramento, si comporta male quando, dopo l’addestramento, sostituiamo l’esperto con un “anti-esperto” che visita le sfere nell’ordine sbagliato.

L’agente (blu) segue l’anti-esperto (rosso), accumulando ricompensa negativa.

Anche se l’agente può osservare che sta ottenendo una ricompensa negativa, l’agente non persegue l’obiettivo desiderato di “visitare le sfere nell’ordine corretto” e persegue invece con competenza l’obiettivo “seguire l’agente rosso”.

GMG non si limita ad ambienti di apprendimento per rinforzo come questo. In effetti, può verificarsi con qualsiasi sistema di apprendimento, compreso il “few-shot learning” dei modelli linguistici di grandi dimensioni (LLM). Gli approcci di apprendimento “low-shot” mirano a costruire modelli accurati con meno dati di addestramento.

Abbiamo suggerito un LLM, Gopherper valutare espressioni lineari che coinvolgono variabili e costanti sconosciute, come x+y-3. Per risolvere queste espressioni, Gopher deve prima interrogarsi sui valori delle variabili sconosciute. Lo forniamo con dieci esempi di formazione, ciascuno dei quali coinvolge due variabili sconosciute.

Al momento del test, al modello vengono poste domande con zero, una o tre variabili sconosciute. Sebbene il modello si generalizzi correttamente alle espressioni con una o tre variabili sconosciute, quando non ci sono incognite, pone comunque domande ridondanti come “Quanto fa 6?”. Il modello interroga sempre l’utente almeno una volta prima di dare una risposta, anche quando non è necessario.

Dialoghi con Gopher per l’apprendimento a scatti sul compito di valutazione delle espressioni, con evidenziato il comportamento GMG.

All’interno del nostro articolo forniamo ulteriori esempi in altri contesti di apprendimento.

Affrontare il GMG è importante per allineare i sistemi di intelligenza artificiale con gli obiettivi dei progettisti semplicemente perché è un meccanismo attraverso il quale un sistema di intelligenza artificiale potrebbe funzionare male. Ciò sarà particolarmente critico man mano che ci avviciniamo all’intelligenza generale artificiale (AGI).

Considera due possibili tipi di sistemi AGI:

A1: modello previsto. Questo sistema di intelligenza artificiale fa ciò che i suoi progettisti intendono che faccia.
A2: Modello ingannevole. Questo sistema di intelligenza artificiale persegue qualche obiettivo indesiderato, ma (per presupposto) è anche abbastanza intelligente da sapere che sarà penalizzato se si comporta in modo contrario alle intenzioni del suo progettista.

Poiché A1 e A2 mostreranno lo stesso comportamento durante l’addestramento, la possibilità del GMG significa che entrambi i modelli potrebbero prendere forma, anche con una specifica che premia solo il comportamento previsto. Se A2 venisse appreso, proverebbe a sovvertire la supervisione umana per mettere in atto i suoi piani verso l’obiettivo indesiderato.

Il nostro gruppo di ricerca sarebbe felice di vedere un lavoro di follow-up che indaghi sulla probabilità che il GMG si verifichi nella pratica e sulle possibili mitigazioni. Nel nostro articolo suggeriamo alcuni approcci, tra cui meccanicistico interpretabilità E ricorsivo valutazionesu entrambi stiamo lavorando attivamente.

‍

Attualmente stiamo raccogliendo esempi di GMG in questo foglio di calcolo disponibile al pubblico. Se ti sei imbattuto in una generalizzazione errata degli obiettivi nella ricerca sull’intelligenza artificiale, ti invitiamo a farlo inviare esempi qui.