All’inizio di qualsiasi ricerca sull’intelligenza artificiale è necessario rispondere a due domande. Cosa vogliamo che facciano i sistemi di intelligenza artificiale? E come valuteremo se stiamo facendo progressi verso questo obiettivo? Alan Turing, nel suo articolo fondamentale che descrive il Test di Turing, che più modestamente chiamò il gioco dell’imitazione, ha sostenuto che per un certo tipo di intelligenza artificiale queste domande potrebbero essere la stessa cosa. Approssimativamente, se il comportamento di un’intelligenza artificiale assomiglia a un’intelligenza simile a quella umana quando una persona interagisce con essa, allora l’intelligenza artificiale ha superato il test e può essere definita intelligente. Un’intelligenza artificiale progettata per interagire con gli esseri umani dovrebbe essere testata attraverso l’interazione con gli esseri umani.
Allo stesso tempo, l’interazione non è solo una prova di intelligenza ma anche il punto. Affinché gli agenti IA siano generalmente utili, dovrebbero assisterci in diverse attività e comunicare con noi in modo naturale. Nella fantascienza, la visione dei robot con cui possiamo parlare è comune. E gli agenti digitali intelligenti che possono aiutare a svolgere un gran numero di compiti sarebbero estremamente utili. Per portare questi dispositivi nella realtà, dobbiamo quindi studiare il problema di come creare agenti che possano interagire abilmente con gli esseri umani e produrre azioni in un mondo ricco.
Costruire agenti in grado di interagire con gli esseri umani e il mondo pone una serie di sfide importanti. Come possiamo fornire segnali di apprendimento appropriati per insegnare agli agenti artificiali tali capacità? Come possiamo valutare le prestazioni degli agenti che sviluppiamo, quando il linguaggio stesso è ambiguo e astratto? Poiché la galleria del vento sta alla progettazione dell’aereo, abbiamo creato un ambiente virtuale per ricercare come creare agenti interagenti.
Per prima cosa creiamo un ambiente simulato, la sala giochi, in cui i robot virtuali possono impegnarsi in una varietà di interazioni interessanti muovendosi, manipolando oggetti e parlando tra loro. Le dimensioni della stanza dei giochi possono essere randomizzate, così come la distribuzione di scaffali, mobili, punti di riferimento come finestre e porte e un assortimento di giocattoli per bambini e oggetti domestici. La diversità dell’ambiente consente interazioni che coinvolgono ragionamenti sullo spazio e sulle relazioni oggettuali, ambiguità di riferimenti, contenimento, costruzione, supporto, occlusione, osservabilità parziale. Abbiamo incorporato due agenti nella Playroom per fornire una dimensione sociale per studiare l’intenzionalità congiunta, la cooperazione, la comunicazione della conoscenza privata e così via.
Sfruttiamo una serie di paradigmi di apprendimento per creare agenti in grado di interagire con gli esseri umani, tra cui l’apprendimento per imitazione, l’apprendimento per rinforzo, l’apprendimento supervisionato e non supervisionato. Come Turing potrebbe aver anticipato nel nominare “il gioco dell’imitazione”, forse il percorso più diretto per creare agenti che possano interagire con gli esseri umani è attraverso l’imitazione del comportamento umano. Grandi set di dati sul comportamento umano insieme ad algoritmi per l’imitazione dell’apprendimento da tali dati sono stati determinanti per creare agenti in grado di interagire con il linguaggio testuale o giocare. Per le interazioni linguistiche radicate, non disponiamo di fonti di dati di comportamento preesistenti e facilmente disponibili, quindi abbiamo creato un sistema per suscitare interazioni da parte di partecipanti umani che interagiscono tra loro. Queste interazioni sono state suscitate principalmente spingendo uno dei giocatori con uno spunto per improvvisare un’istruzione su, ad esempio, “Chiedi all’altro giocatore di posizionare qualcosa rispetto a qualcos’altro”. Alcune delle richieste di interazione prevedono domande e istruzioni, come “Chiedi all’altro giocatore di descrivere dove si trova qualcosa”. In totale, abbiamo raccolto più di un anno di interazioni umane in tempo reale in questo ambiente.
L’apprendimento per imitazione, l’apprendimento per rinforzo e l’apprendimento ausiliario (che consiste nell’apprendimento di rappresentazione supervisionato e non supervisionato) sono integrati in una forma di auto-gioco interattivo che è cruciale per creare i nostri migliori agenti. Tali agenti possono eseguire comandi e rispondere a domande. Chiamiamo questi agenti “risolutori”. Ma i nostri agenti possono anche impartire comandi e porre domande. Chiamiamo questi agenti “setter”. I setter pongono interattivamente problemi ai risolutori per produrre risolutori migliori. Tuttavia, una volta addestrati gli agenti, gli umani possono giocare come setter e interagire con gli agenti risolutori.
Le nostre interazioni non possono essere valutate nello stesso modo della maggior parte dei semplici problemi di apprendimento per rinforzo. Ad esempio, non esiste il concetto di vincere o perdere. Infatti, comunicare con il linguaggio condividendo un ambiente fisico introduce un numero sorprendente di nozioni astratte e ambigue. Ad esempio, se un setter chiede a un risolutore di mettere qualcosa vicino a qualcos’altro, cosa significa esattamente “vicino”? Ma la valutazione accurata di modelli addestrati in contesti standardizzati è un fulcro del moderno apprendimento automatico e dell’intelligenza artificiale. Per far fronte a questo contesto, abbiamo sviluppato una varietà di metodi di valutazione per aiutare a diagnosticare i problemi e assegnare un punteggio agli agenti, incluso il semplice fatto di far interagire gli esseri umani con gli agenti in studi di grandi dimensioni.
Un netto vantaggio della nostra impostazione è che gli operatori umani possono impostare una serie praticamente infinita di nuovi compiti tramite il linguaggio e comprendere rapidamente le competenze dei nostri agenti. Ci sono molti compiti che non possono affrontare, ma il nostro approccio alla creazione di IA offre un chiaro percorso di miglioramento attraverso un insieme crescente di competenze. I nostri metodi sono generali e possono essere applicati ovunque siano necessari agenti che interagiscono con ambienti e persone complessi.