Nel nostro recente cartapubblicato su Nature Human Behaviour, forniamo una dimostrazione pratica del fatto che l’apprendimento per rinforzo profondo (RL) può essere utilizzato per trovare politiche economiche per le quali le persone voteranno a maggioranza in un semplice gioco. Il documento affronta quindi una sfida chiave nella ricerca sull’intelligenza artificiale: come addestrare sistemi di intelligenza artificiale in linea con i valori umani.

Immagina che un gruppo di persone decida di mettere in comune i fondi per effettuare un investimento. L’investimento ripaga e si realizza un profitto. Come dovrebbe essere distribuito il ricavato? Una strategia semplice è quella di dividere equamente il rendimento tra gli investitori. Ma questo potrebbe essere ingiusto, perché alcune persone hanno contribuito più di altre. In alternativa, potremmo ripagare tutti in proporzione all’entità del loro investimento iniziale. Sembra giusto, ma cosa accadrebbe se le persone avessero già diversi livelli di risorse? Se due persone contribuiscono con la stessa somma, ma una dona una frazione dei fondi disponibili e l’altra li dona tutti, dovrebbero ricevere la stessa quota dei proventi?

La questione su come ridistribuire le risorse nelle nostre economie e società ha da tempo generato controversie tra filosofi, economisti e scienziati politici. In questo caso utilizziamo l’RL profondo come banco di prova per esplorare modi per affrontare questo problema.

Per affrontare questa sfida, abbiamo creato un semplice gioco che ha coinvolto quattro giocatori. Ogni istanza del gioco è stata giocata in 10 round. Ad ogni round, a ogni giocatore venivano assegnati dei fondi, con l’entità della dotazione che variava tra i giocatori. Ogni giocatore ha fatto una scelta: poteva tenere i fondi per sé o investirli in un pool comune. La crescita dei fondi investiti era garantita, ma c’era il rischio, perché i giocatori non sapevano come sarebbero stati distribuiti i proventi. Invece, è stato detto loro che per i primi 10 round c’era un arbitro (A) che prendeva le decisioni sulla ridistribuzione, e per i secondi 10 round subentrava un arbitro diverso (B). Alla fine della partita, hanno votato per A o B e hanno giocato un’altra partita con questo arbitro. Ai giocatori umani del gioco era consentito trattenere i proventi di questo gioco finale, quindi erano incentivati ​​a segnalare accuratamente le loro preferenze.

In realtà, uno degli arbitri era una politica di ridistribuzione predefinita e l’altro era progettato dal nostro agente RL profondo. Per addestrare l’agente, abbiamo prima registrato i dati di un gran numero di gruppi umani e insegnato a una rete neurale a copiare il modo in cui le persone giocavano al gioco. Questa popolazione simulata potrebbe generare dati illimitati, consentendoci di utilizzare metodi di apprendimento automatico ad alta intensità di dati per addestrare l’agente RL a massimizzare i voti di questi giocatori “virtuali”. Fatto ciò, abbiamo reclutato nuovi giocatori umani e confrontato il meccanismo progettato dall’intelligenza artificiale con linee di base ben note, come un libertario politica che restituisce fondi alle persone in proporzione ai loro contributi.

Quando abbiamo studiato i voti di questi nuovi attori, abbiamo scoperto che la politica ideata dal deep RL era più popolare rispetto a quella di base. Infatti, quando abbiamo condotto un nuovo esperimento chiedendo a un quinto giocatore umano di assumere il ruolo di arbitro e addestrandolo a cercare di massimizzare i voti, la politica implementata da questo “arbitro umano” era ancora meno popolare di quella del nostro agente.

I sistemi di intelligenza artificiale sono stati talvolta criticati per le politiche di apprendimento che potrebbero essere incompatibili con i valori umani, e questo problema di “allineamento dei valori” è diventato una delle principali preoccupazioni nella ricerca sull’intelligenza artificiale. Un merito del nostro approccio è che l’intelligenza artificiale impara direttamente a massimizzare le preferenze (o i voti) dichiarate di un gruppo di persone. Questo approccio può contribuire a garantire che i sistemi di intelligenza artificiale abbiano meno probabilità di apprendere politiche non sicure o ingiuste. Infatti, quando abbiamo analizzato la politica scoperta dall’intelligenza artificiale, questa incorporava un mix di idee precedentemente proposte da pensatori ed esperti umani per risolvere il problema della ridistribuzione.

In primo luogo, l’AI ha scelto di ridistribuire i fondi alle persone in proporzione alla loro disponibilità parente piuttosto che assoluto contributo. Ciò significa che durante la ridistribuzione dei fondi, l’agente ha tenuto conto dei mezzi iniziali di ciascun giocatore, nonché della sua disponibilità a contribuire. In secondo luogo, il sistema di intelligenza artificiale premiava soprattutto i giocatori il cui contributo relativo era stato più generoso, magari incoraggiando altri a fare lo stesso. È importante sottolineare che l’intelligenza artificiale ha scoperto queste politiche solo imparando a massimizzare i voti umani. Il metodo garantisce quindi che gli esseri umani rimangano “nel ciclo” e che l’intelligenza artificiale produca soluzioni compatibili con l’uomo.

Chiedendo alle persone di votare, abbiamo sfruttato il principio della democrazia maggioritaria per decidere cosa vogliono le persone. Nonostante il suo ampio fascino, è ampiamente riconosciuto che la democrazia arriva con l’avvertenza che le preferenze della maggioranza vengono prese in considerazione rispetto a quelle della minoranza. Nel nostro studio, ci siamo assicurati che – come nella maggior parte delle società – quella minoranza fosse costituita da giocatori dotati di maggiori dotazioni. Ma è necessario ulteriore lavoro per capire come bilanciare le preferenze relative dei gruppi di maggioranza e di minoranza, progettando sistemi democratici che permettano a tutte le voci di essere ascoltate.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *