Gli agenti collaborano meglio comunicando e negoziando e sanzionando le promesse non mantenute aiuta a mantenerli onesti

Una comunicazione e una cooperazione di successo sono state cruciali per aiutare le società a progredire nel corso della storia. Gli ambienti chiusi dei giochi da tavolo possono fungere da sandbox per modellare e indagare l’interazione e la comunicazione – e possiamo imparare molto giocandoci. Nel nostro recente articolo, pubblicato oggi su Nature Communicationsmostriamo come gli agenti artificiali possono utilizzare la comunicazione per cooperare meglio nel gioco da tavolo Diplomacy, un campo vivace nella ricerca sull’intelligenza artificiale (AI), noto per la sua attenzione alla costruzione di alleanze.

La diplomazia è impegnativa in quanto ha regole semplici ma un’elevata complessità emergente a causa delle forti interdipendenze tra i giocatori e del suo immenso spazio d’azione. Per contribuire a risolvere questa sfida, abbiamo progettato algoritmi di negoziazione che consentono agli agenti di comunicare e concordare piani congiunti, consentendo loro di avere la meglio sugli agenti privi di questa capacità.

La cooperazione è particolarmente impegnativa quando non possiamo fare affidamento sul fatto che i nostri pari facciano ciò che promettono. Usiamo Diplomacy come un sandbox per esplorare cosa succede quando gli agenti possono deviare dai loro accordi passati. La nostra ricerca illustra i rischi che emergono quando agenti complessi sono in grado di travisare le proprie intenzioni o fuorviare gli altri riguardo ai propri piani futuri, il che porta a un’altra grande domanda: quali sono le condizioni che promuovono una comunicazione affidabile e il lavoro di squadra?

Mostriamo che la strategia di sanzionare i colleghi che infrangono i contratti riduce drasticamente i vantaggi che possono ottenere abbandonando i propri impegni, favorendo così una comunicazione più onesta.

Cos’è la diplomazia e perché è importante?

Giochi come scacchi, poker, Andaree molti videogiochi sono sempre stati terreno fertile per la ricerca sull’intelligenza artificiale. Diplomazia è un gioco a sette giocatori di negoziazione e formazione di alleanze, giocato su una vecchia mappa dell’Europa divisa in province, dove ogni giocatore controlla più unità (regole della diplomazia). Nella versione standard del gioco, chiamata Press Diplomacy, ogni turno include una fase di negoziazione, dopo la quale tutti i giocatori rivelano simultaneamente le mosse scelte.

Il cuore della diplomazia è la fase di negoziazione, in cui i giocatori cercano di concordare le mosse successive. Ad esempio, un’unità può supportare un’altra unità, permettendole di superare la resistenza di altre unità, come illustrato qui:

Due scenari di movimento.
Sinistra: due unità (una rossa in Borgogna ed una blu in Guascogna) tentano di muovere a Parigi. Dato che le unità hanno la stessa forza, nessuna delle due riesce.
Giusto: l’unità Rossa in Piccardia supporta l’unità Rossa in Borgogna, sopraffacendo l’unità Blu e consentendo all’unità Rossa di entrare in Borgogna.

Gli approcci computazionali alla diplomazia sono stati studiati sin dagli anni ’80, molti dei quali sono stati esplorati in una versione più semplice del gioco chiamata No-Press Diplomacy, dove la comunicazione strategica tra i giocatori non è consentita. I ricercatori hanno anche proposto protocolli di negoziazione informaticia volte chiamato “stampa riservata”.

Cosa abbiamo studiato?

Utilizziamo la diplomazia come analogo alla negoziazione nel mondo reale, fornendo metodi agli agenti IA per coordinare le loro mosse. Prendiamo i nostri agenti diplomatici non comunicanti e stimolarli a giocare alla diplomazia con la comunicazione fornendo loro un protocollo per negoziare i contratti per un piano d’azione congiunto. Chiamiamo questi agenti potenziati negoziatori di base e sono vincolati dai loro accordi.

Contratti diplomatici.
Sinistra: una restrizione che consente al giocatore Rosso di intraprendere solo determinate azioni (non è consentito spostarsi dalla Ruhr alla Borgogna, e deve spostarsi dal Piemonte a Marsiglia).
Giusto: Un contratto tra i giocatori Rosso e Verde, che pone restrizioni ad entrambe le parti.

Consideriamo due protocolli: il Mutual Proposal Protocol e il Propose-Choose Protocol, discussi in dettaglio in il documento completo. I nostri agenti applicano algoritmi che identificano accordi reciprocamente vantaggiosi simulando come il gioco potrebbe svolgersi in base a vari contratti. Noi usiamo il Soluzione di contrattazione di Nash da teoria del gioco come base di principio per individuare accordi di alta qualità. Il gioco può svolgersi in molti modi a seconda delle azioni dei giocatori, quindi i nostri agenti utilizzano simulazioni Monte-Carlo per vedere cosa potrebbe accadere nel turno successivo.

Simulare i prossimi stati dato un contratto concordato. A sinistra: stato attuale in una parte del tabellone, compreso un contratto concordato tra i giocatori Rosso e Verde. A destra: molteplici possibili stati successivi.

I nostri esperimenti mostrano che il nostro meccanismo di negoziazione consente ai negoziatori di base di sovraperformare significativamente gli agenti non comunicanti di base.

I negoziatori di base superano significativamente le prestazioni degli agenti non comunicanti. A sinistra: il protocollo di proposta reciproca. A destra: il protocollo Propone-Scegli. Il “vantaggio del negoziatore” è il rapporto tra i tassi di vincita tra gli agenti comunicanti e gli agenti non comunicanti.

Agenti che infrangono gli accordi

In Diplomazia, gli accordi presi durante la negoziazione non sono vincolanti (la comunicazione è “chiacchiere a buon mercato’‘). Ma cosa succede quando gli agenti che accettano un contratto in un turno si discostano da esso il turno successivo? In molti contesti della vita reale le persone accettano di agire in un certo modo, ma in seguito non riescono a mantenere i propri impegni. Per consentire la cooperazione tra agenti IA, o tra agenti ed esseri umani, dobbiamo esaminare la potenziale trappola degli agenti che infrangono strategicamente i loro accordi e i modi per porre rimedio a questo problema. Abbiamo utilizzato la diplomazia per studiare come la capacità di abbandonare i nostri impegni mina la fiducia e la cooperazione e per identificare le condizioni che favoriscono una cooperazione onesta.

Quindi consideriamo gli agenti deviatori, che superano i negoziatori onesti di base deviando dai contratti concordati. I Deviatori Semplici semplicemente “dimenticano” di aver accettato un contratto e si muovono come desiderano. I Deviatori Condizionali sono più sofisticati e ottimizzano le loro azioni presupponendo che gli altri giocatori che hanno accettato un contratto agiscano in conformità con esso.

Tutti i tipi dei nostri agenti comunicanti. Sotto i termini del raggruppamento verde, ciascun blocco blu rappresenta uno specifico algoritmo dell’agente.

Mostriamo che i Deviatori Semplici e Condizionali superano significativamente i Negoziatori di Base, i Deviatori Condizionali in modo schiacciante.

Agenti deviatori contro agenti negoziatori di base. A sinistra: il protocollo di proposta reciproca. A destra: il protocollo Propone-Scegli. Il “vantaggio del deviatore” è il rapporto tra i tassi di vincita tra gli agenti deviatori rispetto ai negoziatori di base.

Incoraggiare gli agenti a essere onesti

Successivamente affrontiamo il problema della deviazione utilizzando gli agenti difensivi, che rispondono negativamente alle deviazioni. Indaghiamo sui negoziatori binari, che semplicemente interrompono le comunicazioni con gli agenti che infrangono un accordo con loro. Ma evitare è una reazione blanda, quindi sviluppiamo anche agenti sanzionatori, che non prendono alla leggera il tradimento, ma modificano invece i loro obiettivi per tentare attivamente di abbassare il valore del deviatore: un avversario con rancore! Mostriamo che entrambi i tipi di agenti difensivi riducono il vantaggio della deviazione, in particolare gli agenti sanzionatori.

Agenti non deviatori (negoziatori di base, negoziatori binari e agenti sanzionatori) che giocano contro deviatori condizionali. A sinistra: protocollo di proposta reciproca. A destra: protocollo Proponi-Scegli. I valori di “vantaggio deviatore” inferiori a 1 indicano che un agente difensivo ha prestazioni migliori di un agente deviatore. Una popolazione di negoziatori binari (blu) riduce il vantaggio dei deviatori rispetto a una popolazione di negoziatori di base (grigio).

Infine, introduciamo i Deviatori Apprenditi, che adattano e ottimizzano il loro comportamento contro i Sanctioning Agents su più partite, cercando di rendere le difese di cui sopra meno efficaci. Un deviatore appreso romperà un contratto solo quando i guadagni immediati derivanti dalla deviazione sono sufficientemente elevati e la capacità di ritorsione dell’altro agente è sufficientemente bassa. In pratica, i Deviatori Apprenditi occasionalmente rompono i contratti nelle fasi avanzate del gioco e, così facendo, ottengono un leggero vantaggio rispetto agli Agenti Sanzionatori. Tuttavia, tali sanzioni spingono Learned Deviator a onorare oltre il 99,7% dei suoi contratti.

Esaminiamo anche le possibili dinamiche di apprendimento della sanzione e della deviazione: cosa succede quando anche gli agenti sanzionatori possono deviare dai contratti e il potenziale incentivo a smettere di sanzionare quando questo comportamento è costoso. Tali problemi possono gradualmente erodere la cooperazione, quindi potrebbero essere necessari meccanismi aggiuntivi come la ripetizione dell’interazione su più giochi o l’utilizzo di sistemi di fiducia e reputazione.

Il nostro articolo lascia molte domande aperte per la ricerca futura: è possibile progettare protocolli più sofisticati per incoraggiare comportamenti ancora più onesti? Come si potrebbe gestire la combinazione di tecniche di comunicazione e informazioni imperfette? Infine, quali altri meccanismi potrebbero scoraggiare la rottura degli accordi? Costruire sistemi di intelligenza artificiale equi, trasparenti e affidabili è un argomento estremamente importante ed è una parte fondamentale della missione di DeepMind. Studiare queste domande in sandbox come Diplomacy ci aiuta a comprendere meglio le tensioni tra cooperazione e competizione che potrebbero esistere nel mondo reale. In definitiva, riteniamo che affrontare queste sfide ci permetta di comprendere meglio come sviluppare sistemi di intelligenza artificiale in linea con i valori e le priorità della società.

Leggi il nostro articolo completo Qui.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *