In il nostro recente articolo esploriamo come l’apprendimento per rinforzo profondo multi-agente possa servire da modello di interazioni sociali complesse, come la formazione di norme sociali. Questa nuova classe di modelli potrebbe fornire un percorso per creare simulazioni del mondo più ricche e dettagliate.
Gli esseri umani sono un specie ultrasociale. Rispetto ad altri mammiferi traiamo maggiori benefici dalla cooperazione, ma ne siamo anche più dipendenti e affrontiamo maggiori sfide di cooperazione. Oggi, l’umanità si trova ad affrontare numerose sfide di cooperazione, tra cui la prevenzione dei conflitti sulle risorse, la garanzia che tutti possano accedere all’aria pulita e all’acqua potabile, l’eliminazione della povertà estrema e la lotta al cambiamento climatico. Molti dei problemi di cooperazione che affrontiamo sono difficili da risolvere perché coinvolgono complesse reti di interazioni sociali e biofisiche chiamate sistemi socio-ecologici. Tuttavia, gli esseri umani possono imparare collettivamente a superare le sfide della cooperazione che dobbiamo affrontare. Raggiungiamo questo obiettivo attraverso una cultura in continua evoluzione, che comprende norme e istituzioni che organizzano le nostre interazioni con l’ambiente e tra di noi.
Tuttavia, le norme e le istituzioni a volte non riescono a risolvere le sfide della cooperazione. Ad esempio, gli individui potrebbero sfruttare eccessivamente risorse come le foreste e la pesca, provocandone così il collasso. In tali casi, i policy maker possono scrivere leggi per modificare le regole istituzionali o svilupparne altre interventi volti a modificare le norme nella speranza di apportare un cambiamento positivo. Ma gli interventi politici non sempre funzionano come previsto. Questo perché i sistemi socio-ecologici del mondo reale lo sono considerevolmente più complesso rispetto ai modelli che solitamente utilizziamo per cercare di prevedere gli effetti delle politiche candidate.
I modelli basati sulla teoria dei giochi vengono spesso applicati allo studio dell’evoluzione culturale. Nella maggior parte di questi modelli, le interazioni chiave che gli agenti hanno tra loro sono espresse in una “matrice dei payoff”. In un gioco con due partecipanti e due azioni A e B, una matrice dei payoff definisce il valore dei quattro possibili risultati: (1) entrambi scegliamo A, (2) entrambi scegliamo B, (3) io scelgo A mentre tu scegli B e (4) Io scelgo B mentre tu scegli A. L’esempio più famoso è il “dilemma del prigioniero”, in cui le azioni sono interpretate come “cooperare” e “difetto”. Gli agenti razionali che agiscono secondo il proprio miope interesse personale sono condannati a disertare il dilemma del prigioniero anche se è disponibile il risultato migliore della cooperazione reciproca.
I modelli della teoria dei giochi sono stati ampiamente applicati. Ricercatori in diversi campi li hanno utilizzati per studiare un’ampia gamma di fenomeni diversi, comprese le economie e l’evoluzione della cultura umana. Tuttavia, la teoria dei giochi non è uno strumento neutrale, piuttosto è un linguaggio di modellazione profondamente supponente. Impone un requisito rigoroso secondo cui tutto alla fine deve fruttare in termini di matrice dei profitti (o rappresentazione equivalente). Ciò significa che il modellatore deve sapere, o essere disposto ad assumere, tutto su come gli effetti delle azioni individuali si combinano per generare incentivi. Questo a volte è appropriato e l’approccio teorico dei giochi ha avuto molti successi notevoli, ad esempio nella modellazione del comportamento delle imprese oligopolistiche E relazioni internazionali nell’era della guerra fredda. Tuttavia, la principale debolezza della teoria dei giochi come linguaggio di modellazione viene alla luce in situazioni in cui il modellatore non comprende appieno come le scelte degli individui si combinano per generare profitti. Sfortunatamente questo tende ad essere il caso dei sistemi socio-ecologici perché le loro parti sociali ed ecologiche interagiscono in modi complessi che non comprendiamo appieno.
Il lavoro che presentiamo qui è un esempio all’interno di un programma di ricerca che tenta di stabilire un quadro di modellizzazione alternativo, diverso dalla teoria dei giochi, da utilizzare nello studio dei sistemi socio-ecologici. Il nostro approccio può essere visto formalmente come una varietà di modellazione basata su agenti. Tuttavia, la sua caratteristica distintiva è l’incorporazione di elementi algoritmici dell’intelligenza artificiale, in particolare dell’apprendimento profondo per rinforzo multi-agente.
L’idea centrale di questo approccio è che ogni modello è costituito da due parti interconnesse: (1) un modello ricco e dinamico dell’ambiente e (2) un modello del processo decisionale individuale.
Il primo assume la forma di un simulatore progettato da un ricercatore: un programma interattivo che prende in considerazione lo stato dell’ambiente corrente e le azioni dell’agente, e restituisce lo stato dell’ambiente successivo, nonché le osservazioni di tutti gli agenti e le loro ricompense istantanee. Anche il modello del processo decisionale individuale è condizionato dallo stato dell’ambiente. È un agente che impara dalla sua esperienza passata, eseguendo una forma di tentativi ed errori. Un agente interagisce con un ambiente raccogliendo osservazioni ed emettendo azioni. Ogni agente seleziona le azioni in base alla sua politica comportamentale, una mappatura dalle osservazioni alle azioni. Gli agenti imparano modificando la loro politica per migliorarla lungo qualsiasi dimensione desiderata, in genere per ottenere maggiori ricompense. La policy è archiviata in una rete neurale. Gli agenti imparano “da zero”, dalla propria esperienza, come funziona il mondo e cosa possono fare per guadagnare più premi. Raggiungono questo obiettivo sintonizzando i pesi della loro rete in modo tale che i pixel che ricevono come osservazioni vengano gradualmente trasformati in azioni competenti. Diversi agenti di apprendimento possono abitare tra loro lo stesso ambiente. In questo caso gli agenti diventano interdipendenti perché le loro azioni si influenzano a vicenda.
Come altri approcci di modellazione basati su agenti, l’apprendimento per rinforzo profondo multi-agente semplifica la specificazione di modelli che attraversano livelli di analisi che sarebbero difficili da trattare con la teoria dei giochi. Ad esempio, le azioni possono essere molto più vicine alle primitive motorie di basso livello (ad esempio “camminare in avanti”; “girare a destra”) rispetto alle decisioni strategiche di alto livello della teoria dei giochi (ad esempio “cooperare”). Questa è una caratteristica importante necessaria per catturare situazioni in cui gli agenti devono esercitarsi per imparare in modo efficace come farlo attuare le proprie scelte strategiche. Ad esempio in uno studiogli agenti impararono a collaborare pulendo a turno un fiume. Questa soluzione è stata possibile solo perché l’ambiente aveva dimensioni spaziali e temporali in cui gli agenti hanno grande libertà nel modo in cui strutturano il loro comportamento gli uni verso gli altri. È interessante notare che, sebbene l’ambiente consentisse molte soluzioni diverse (come territorialità), gli agenti convergevano sulla stessa soluzione di turnazione dei giocatori umani.
Nel nostro ultimo studio, abbiamo applicato questo tipo di modello a una questione aperta nella ricerca sull’evoluzione culturale: come spiegare l’esistenza di norme sociali spurie e arbitrarie che sembrano non avere conseguenze materiali immediate per la loro violazione oltre a quelle imposte socialmente. Ad esempio, in alcune società ci si aspetta che gli uomini indossino pantaloni e non gonne; in molti ci sono parole o gesti delle mani che non dovrebbero essere usati in compagnia educata; e nella maggior parte dei casi ci sono regole su come acconciarsi i capelli o cosa indossare sulla testa. Chiamiamo queste norme sociali “regole stupide”. È importante sottolineare che nel nostro contesto è necessario apprendere sia l’applicazione che il rispetto delle norme sociali. Avere un ambiente sociale che include una “regola stupida” significa che gli agenti hanno maggiori opportunità di apprendere come far rispettare le norme in generale. Questa pratica aggiuntiva consente quindi loro di far rispettare le regole importanti in modo più efficace. Nel complesso, la “regola stupida” può essere benefica per la popolazione: un risultato sorprendente. Questo risultato è possibile solo perché la nostra simulazione si concentra sull’apprendimento: far rispettare e rispettare le regole sono competenze complesse che necessitano di formazione per essere sviluppate.
Parte del motivo per cui troviamo questo risultato sulle regole stupide così entusiasmante è che dimostra l’utilità dell’apprendimento di rinforzo profondo multi-agente nella modellazione dell’evoluzione culturale. La cultura contribuisce al successo o al fallimento degli interventi politici per i sistemi socio-ecologici. Ad esempio, il rafforzamento delle norme sociali sul riciclaggio fa parte del programma soluzione ad alcuni problemi ambientali. Seguendo questa traiettoria, simulazioni più ricche potrebbero portare a una comprensione più profonda di come progettare interventi per i sistemi socio-ecologici. Se le simulazioni diventeranno sufficientemente realistiche, potrebbe anche essere possibile testare l’impatto degli interventi, ad esempio mirando a farlo progettare un codice fiscale che promuova la produttività e l’equità.
Questo approccio fornisce ai ricercatori gli strumenti per specificare modelli dettagliati dei fenomeni che li interessano. Naturalmente, come tutte le metodologie di ricerca, ci si dovrebbe aspettare che presenti i propri punti di forza e di debolezza. Speriamo di scoprire di più su quando questo stile di modellazione potrà essere fruttuosamente applicato in futuro. Sebbene non esistano panacee per la modellizzazione, riteniamo che ci siano ragioni convincenti per guardare all’apprendimento di rinforzo profondo multi-agente quando si costruiscono modelli di fenomeni sociali, specialmente quando implicano l’apprendimento.