All’inizio di qualsiasi ricerca sull’intelligenza artificiale è necessario rispondere a due domande. Cosa vogliamo che facciano i sistemi di intelligenza artificiale? E come valuteremo se stiamo facendo progressi verso questo obiettivo? Alan Turing, nel suo articolo fondamentale che descrive il Test di Turing, che più modestamente chiamò il gioco dell’imitazione, ha sostenuto che per un certo tipo di intelligenza artificiale queste domande potrebbero essere la stessa cosa. Approssimativamente, se il comportamento di un’intelligenza artificiale assomiglia a un’intelligenza simile a quella umana quando una persona interagisce con essa, allora l’intelligenza artificiale ha superato il test e può essere definita intelligente. Un’intelligenza artificiale progettata per interagire con gli esseri umani dovrebbe essere testata attraverso l’interazione con gli esseri umani.

Allo stesso tempo, l’interazione non è solo una prova di intelligenza ma anche il punto. Affinché gli agenti IA siano generalmente utili, dovrebbero assisterci in diverse attività e comunicare con noi in modo naturale. Nella fantascienza, la visione dei robot con cui possiamo parlare è comune. E gli agenti digitali intelligenti che possono aiutare a svolgere un gran numero di compiti sarebbero estremamente utili. Per portare questi dispositivi nella realtà, dobbiamo quindi studiare il problema di come creare agenti che possano interagire abilmente con gli esseri umani e produrre azioni in un mondo ricco.

Costruire agenti in grado di interagire con gli esseri umani e il mondo pone una serie di sfide importanti. Come possiamo fornire segnali di apprendimento appropriati per insegnare agli agenti artificiali tali capacità? Come possiamo valutare le prestazioni degli agenti che sviluppiamo, quando il linguaggio stesso è ambiguo e astratto? Poiché la galleria del vento sta alla progettazione dell’aereo, abbiamo creato un ambiente virtuale per ricercare come creare agenti interagenti.

Per prima cosa creiamo un ambiente simulato, la sala giochi, in cui i robot virtuali possono impegnarsi in una varietà di interazioni interessanti muovendosi, manipolando oggetti e parlando tra loro. Le dimensioni della stanza dei giochi possono essere randomizzate, così come la distribuzione di scaffali, mobili, punti di riferimento come finestre e porte e un assortimento di giocattoli per bambini e oggetti domestici. La diversità dell’ambiente consente interazioni che coinvolgono ragionamenti sullo spazio e sulle relazioni oggettuali, ambiguità di riferimenti, contenimento, costruzione, supporto, occlusione, osservabilità parziale. Abbiamo incorporato due agenti nella Playroom per fornire una dimensione sociale per studiare l’intenzionalità congiunta, la cooperazione, la comunicazione della conoscenza privata e così via.

Agenti che interagiscono nella sala giochi. L’agente blu ordina all’agente giallo di “mettere l’elicottero nella scatola”.
La configurazione della sala giochi è casuale per creare diversità nella raccolta dei dati.

Sfruttiamo una serie di paradigmi di apprendimento per creare agenti in grado di interagire con gli esseri umani, tra cui l’apprendimento per imitazione, l’apprendimento per rinforzo, l’apprendimento supervisionato e non supervisionato. Come Turing potrebbe aver anticipato nel nominare “il gioco dell’imitazione”, forse il percorso più diretto per creare agenti che possano interagire con gli esseri umani è attraverso l’imitazione del comportamento umano. Grandi set di dati sul comportamento umano insieme ad algoritmi per l’imitazione dell’apprendimento da tali dati sono stati determinanti per creare agenti in grado di interagire con il linguaggio testuale o giocare. Per le interazioni linguistiche radicate, non disponiamo di fonti di dati di comportamento preesistenti e facilmente disponibili, quindi abbiamo creato un sistema per suscitare interazioni da parte di partecipanti umani che interagiscono tra loro. Queste interazioni sono state suscitate principalmente spingendo uno dei giocatori con uno spunto per improvvisare un’istruzione su, ad esempio, “Chiedi all’altro giocatore di posizionare qualcosa rispetto a qualcos’altro”. Alcune delle richieste di interazione prevedono domande e istruzioni, come “Chiedi all’altro giocatore di descrivere dove si trova qualcosa”. In totale, abbiamo raccolto più di un anno di interazioni umane in tempo reale in questo ambiente.

Ciascuno dei nostri agenti consuma immagini e linguaggio come input e produce azioni fisiche e azioni linguistiche come output. Abbiamo creato modelli di ricompensa con le stesse specifiche di input.
A sinistra: nel corso di un’interazione di 2 minuti, i due giocatori (setter e risolutore) si muovono, si guardano intorno, afferrano e lasciano cadere oggetti e parlano. A destra: al palleggiatore viene chiesto di “Chiedere all’altro giocatore di sollevare qualcosa”. Il setter ordina all’agente risolutore di “Sollevare l’aereo che si trova davanti al tavolo da pranzo”. L’agente risolutore trova l’oggetto corretto e completa l’attività.

L’apprendimento per imitazione, l’apprendimento per rinforzo e l’apprendimento ausiliario (che consiste nell’apprendimento di rappresentazione supervisionato e non supervisionato) sono integrati in una forma di auto-gioco interattivo che è cruciale per creare i nostri migliori agenti. Tali agenti possono eseguire comandi e rispondere a domande. Chiamiamo questi agenti “risolutori”. Ma i nostri agenti possono anche impartire comandi e porre domande. Chiamiamo questi agenti “setter”. I setter pongono interattivamente problemi ai risolutori per produrre risolutori migliori. Tuttavia, una volta addestrati gli agenti, gli umani possono giocare come setter e interagire con gli agenti risolutori.

Dalle dimostrazioni umane formiamo le politiche utilizzando una combinazione di apprendimento supervisionato (clonazione comportamentale), RL inverso per dedurre modelli di ricompensa e RL inoltrato per ottimizzare le politiche utilizzando il modello di ricompensa dedotto. Utilizziamo compiti ausiliari semi-supervisionati per contribuire a modellare le rappresentazioni sia dei modelli politici che di quelli retributivi.
L’agente setter chiede all’agente risolutore di “Prendere il robot bianco e posizionarlo sul letto”. L’agente risolutore trova il robot e porta a termine l’attività. La funzione di ricompensa appresa dalle dimostrazioni coglie aspetti chiave del compito (blu) e dà meno ricompensa (grigio) quando le stesse osservazioni sono abbinate all’istruzione controfattuale: “Prendi il robot rosso e mettilo sul letto”.

Le nostre interazioni non possono essere valutate nello stesso modo della maggior parte dei semplici problemi di apprendimento per rinforzo. Ad esempio, non esiste il concetto di vincere o perdere. Infatti, comunicare con il linguaggio condividendo un ambiente fisico introduce un numero sorprendente di nozioni astratte e ambigue. Ad esempio, se un setter chiede a un risolutore di mettere qualcosa vicino a qualcos’altro, cosa significa esattamente “vicino”? Ma la valutazione accurata di modelli addestrati in contesti standardizzati è un fulcro del moderno apprendimento automatico e dell’intelligenza artificiale. Per far fronte a questo contesto, abbiamo sviluppato una varietà di metodi di valutazione per aiutare a diagnosticare i problemi e assegnare un punteggio agli agenti, incluso il semplice fatto di far interagire gli esseri umani con gli agenti in studi di grandi dimensioni.

Gli esseri umani hanno valutato le prestazioni degli agenti e di altri esseri umani nel completare le istruzioni nella sala giochi sia sui compiti di seguire le istruzioni che di rispondere alle domande. Gli agenti inizializzati in modo casuale hanno avuto successo circa lo 0% delle volte. Un agente addestrato solo con la clonazione comportamentale supervisionata (B) ha ottenuto risultati leggermente migliori, nel 10-20% circa dei casi. Anche gli agenti addestrati con compiti ausiliari semi-supervisionati (B·A) hanno ottenuto risultati migliori. Quelli addestrati con l’apprendimento supervisionato, semi-supervisionato e di rinforzo utilizzando il self-play interattivo sono stati giudicati quelli che hanno ottenuto i migliori risultati (BG·A e BGR·A).

Un netto vantaggio della nostra impostazione è che gli operatori umani possono impostare una serie praticamente infinita di nuovi compiti tramite il linguaggio e comprendere rapidamente le competenze dei nostri agenti. Ci sono molti compiti che non possono affrontare, ma il nostro approccio alla creazione di IA offre un chiaro percorso di miglioramento attraverso un insieme crescente di competenze. I nostri metodi sono generali e possono essere applicati ovunque siano necessari agenti che interagiscono con ambienti e persone complessi.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *