Apprendimento di una solida trasmissione culturale in tempo reale senza dati umani | Intelligenza-Artificiale

Ricerca

Pubblicato: 3 marzo 2022
Autori: Squadra dell’intelligence generale culturale

Nel corso dei millenni, l’umanità ha scoperto, evoluto e accumulato un patrimonio di conoscenze culturali, dalle rotte di navigazione alla matematica, dalle norme sociali alle opere d’arte. La trasmissione culturale, definita come il passaggio efficiente di informazioni da un individuo a un altro, è il processo ereditario alla base di questo aumento esponenziale delle capacità umane.

Il nostro agente, in blu, imita e ricorda la dimostrazione sia dei robot (a sinistra) che degli umani (a destra), in rosso.

Per altri video dei nostri agenti in azione, visita il nostro sito web.

In questo lavoro, utilizziamo l’apprendimento per rinforzo profondo per generare agenti artificiali capaci di trasmissione culturale in tempo di prova. Una volta addestrati, i nostri agenti possono dedurre e ricordare le conoscenze di navigazione dimostrate dagli esperti. Questo trasferimento di conoscenze avviene in tempo reale e si generalizza in un vasto spazio di compiti mai visti prima. Ad esempio, i nostri agenti possono apprendere rapidamente nuovi comportamenti osservando una singola dimostrazione umana, senza mai effettuare formazione sui dati umani.

Un riepilogo del nostro ambiente di apprendimento per rinforzo. I compiti rappresentano la navigazione per un’ampia classe di abilità umane, che richiedono particolari sequenze di decisioni strategiche, come cucinare, orientarsi e risolvere problemi.

Addestriamo e testiamo i nostri agenti in mondi 3D generati proceduralmente, contenenti obiettivi colorati e sferici incorporati in un terreno rumoroso e pieno di ostacoli. Un giocatore deve raggiungere gli obiettivi nell’ordine corretto, che cambia casualmente in ogni episodio. Dato che l’ordine è impossibile da indovinare, una strategia di esplorazione ingenua comporta una grossa penalità. Come fonte di informazioni trasmesse culturalmente, forniamo un “bot” privilegiato che inserisce sempre gli obiettivi nella sequenza corretta.

Il nostro agente MEDAL(-ADR) supera le ablazioni nei compiti tralasciati, in mondi senza ostacoli (in alto) e con ostacoli (in basso).

Attraverso le ablazioni, identifichiamo uno “starter kit” minimo e sufficiente di ingredienti formativi necessari affinché la trasmissione culturale emerga, denominato MEDAL-ADR. Questi componenti includono la memoria (M), l’abbandono dell’esperto (ED), la distorsione dell’attenzione verso l’esperto (AL) e la randomizzazione automatica del dominio (ADR). Il nostro agente supera le ablazioni, compreso il metodo all’avanguardia (ME-AL), in una serie di compiti impegnativi. La trasmissione culturale si generalizza sorprendentemente bene al di fuori della distribuzione, e l’agente ricorda le dimostrazioni molto tempo dopo che l’esperto se n’è andato. Esaminando il cervello dell’agente, troviamo neuroni sorprendentemente interpretabili responsabili della codifica delle informazioni sociali e degli stati degli obiettivi.

Il nostro agente generalizza al di fuori della distribuzione dell’addestramento (in alto) e possiede neuroni individuali che codificano le informazioni sociali (in basso).

In sintesi, forniamo una procedura per addestrare un agente capace di trasmissione culturale flessibile, ad alto ricordo e in tempo reale, senza utilizzare dati umani nel processo di formazione. Ciò apre la strada all’evoluzione culturale come algoritmo per lo sviluppo di agenti artificiali più generalmente intelligenti.

Le note degli autori si basano sul lavoro congiunto del Cultural General Intelligence Team: Avishkar Bhoopchand, Bethanie Brownfield, Adrian Collister, Agustin Dal Lago, Ashley Edwards, Richard Everett, Alexandre Fréchette, Edward Hughes, Kory W. Mathewson, Piermaria Mendolicchio, Yanko Oliveira, Julia Pawar, Miruna Pîslar, Alex Platonov, Evan Senter, Sukhdeep Singh, Alexander Zacherl e Lei M. Zhang.

Leggi il documento completo Qui.

Fonte: deepmind.google