Comportamento di baratto emergente nell'apprendimento per rinforzo multi-agente | Intelligenza-Artificiale

In il nostro recente articoloesploriamo come le popolazioni di agenti di apprendimento di rinforzo profondo (RL profondo) possono apprendere comportamenti microeconomici, come la produzione, il consumo e lo scambio di beni. Scopriamo che gli agenti artificiali imparano a prendere decisioni economicamente razionali sulla produzione, sul consumo e sui prezzi e a reagire in modo appropriato ai cambiamenti della domanda e dell’offerta. La popolazione converge verso prezzi locali che riflettono la vicina abbondanza di risorse, e alcuni agenti imparano a trasportare merci tra queste aree per “comprare a basso e vendere a alto”. Questo lavoro fa avanzare la più ampia agenda di ricerca sull’apprendimento di rinforzo multi-agente introducendo nuove sfide sociali che gli agenti devono imparare a risolvere.

Nella misura in cui l’obiettivo della ricerca sull’apprendimento di rinforzo multi-agente è quello di produrre agenti che funzionino attraverso l’intera gamma e complessità dell’intelligenza sociale umana, l’insieme di domini finora considerati è stato tristemente incompleto. Mancano ancora ambiti cruciali in cui l’intelligenza umana eccelle e in cui gli esseri umani spendono quantità significative di tempo ed energia. L’economia è uno di questi ambiti. Il nostro obiettivo in questo lavoro è creare ambienti basati sui temi del commercio e della negoziazione per l’utilizzo da parte dei ricercatori nell’apprendimento per rinforzo multi-agente.

L’economia utilizza modelli basati su agenti per simulare il comportamento delle economie. Questi modelli basati sugli agenti spesso si basano su ipotesi economiche su come gli agenti dovrebbero agire. In questo lavoro, presentiamo un mondo simulato multi-agente in cui gli agenti possono apprendere comportamenti economici da zero, in modi familiari a qualsiasi studente di Microeconomia 101: decisioni su produzione, consumo e prezzi. Ma i nostri agenti devono fare anche altre scelte che derivano da un modo di pensare più incarnato fisicamente. Devono navigare in un ambiente fisico, trovare alberi con cui raccogliere i frutti e partner con cui commerciarli. I recenti progressi nelle tecniche di RL profondo rendono ora possibile creare agenti in grado di apprendere questi comportamenti da soli, senza richiedere a un programmatore di codificare la conoscenza del dominio.

Il nostro ambiente, chiamato Mercato della fruttaè un ambiente multiplayer in cui gli agenti producono e consumano due tipi di frutta: mele e banane. Ogni agente è abile nel produrre un tipo di frutta, ma ha una preferenza per l’altro: se gli agenti imparassero a barattare e scambiare beni, entrambe le parti starebbero meglio.

**Una mappa di esempio nel mercato della frutta:** Gli agenti si muovono sulla mappa per raccogliere mele e banane dagli alberi, si incontrano per commerciare tra loro e poi consumano il frutto che preferiscono.

Nei nostri esperimenti, dimostriamo che gli attuali agenti RL profondi possono imparare a commerciare e che i loro comportamenti in risposta ai cambiamenti della domanda e dell’offerta sono in linea con ciò che prevede la teoria microeconomica. Successivamente ci basiamo su questo lavoro per presentare scenari che sarebbero molto difficili da risolvere utilizzando modelli analitici, ma che sono semplici per i nostri agenti RL profondi. Ad esempio, in ambienti in cui ciascun tipo di frutto cresce in un’area diversa, osserviamo l’emergere di diverse regioni di prezzo legate all’abbondanza locale di frutta, così come il successivo apprendimento di comportamenti di arbitraggio da parte di alcuni agenti, che iniziano a specializzarsi in trasporto di frutta tra queste regioni.

**Curve di domanda e offerta emergenti:** In questo esperimento, manipoliamo la probabilità che meli (a=x) e banani (b=y) appaiano in ciascuna posizione sulla mappa. Questi risultati replicano le curve teoriche di domanda e offerta presentate nei corsi introduttivi di microeconomia.

Il campo dell’economia computazionale basata su agenti utilizza simulazioni simili per la ricerca economica. In questo lavoro, dimostriamo anche che le tecniche all’avanguardia di RL profondo possono imparare in modo flessibile ad agire in questi ambienti dalla propria esperienza, senza bisogno di avere conoscenze economiche integrate. Ciò evidenzia i recenti progressi della comunità dell’apprendimento per rinforzo in multi -agent RL e deep RL, e dimostra il potenziale delle tecniche multi-agente come strumenti per far avanzare la ricerca economica simulata.

Come un percorso verso l’intelligenza artificiale generale (AGI), la ricerca sull’apprendimento di rinforzo multi-agente dovrebbe comprendere tutti i domini critici dell’intelligenza sociale. Tuttavia, fino ad ora non ha incorporato fenomeni economici tradizionali come il commercio, la contrattazione, la specializzazione, il consumo e la produzione. Il presente documento colma questa lacuna e fornisce una piattaforma per ulteriori ricerche. Per facilitare la ricerca futura in quest’area, l’ambiente del mercato della frutta sarà incluso nella prossima versione del file Crogiolo suite di ambienti.