Ricerca

Pubblicato
Autori

Josh Abramson, Arun Ahuja, Arthur Brussee, Federico Carnevale, Mary Cassin, Felix Fischer, Petko Georgiev, Alex Goldin, Tim Harley, Felix Hill, Peter C Humphreys, Alden Hung, Jessica Landon, Timothy Lillicrap, Hamza Merzic, Alistair Muldal, Adam Santoro, Guy Scully, Tamara von Glehn, Gregory Wayne, Nathaniel Wong, Chen Yan, Rui Zhu, Mary Cassin, Hamza Merzic

Gli esseri umani sono una specie interattiva. Interagiamo con il mondo fisico e tra di noi. Affinché l’intelligenza artificiale (AI) possa essere generalmente utile, deve essere in grado di interagire abilmente con gli esseri umani e il loro ambiente. In questo lavoro presentiamo il Multimodal Interactive Agent (MIA), che fonde percezione visiva, comprensione e produzione del linguaggio, navigazione e manipolazione per impegnarsi in interazioni fisiche e linguistiche estese e spesso sorprendenti con gli esseri umani.

Ci basiamo sull’approccio introdotto da Abramson et al. (2020), che utilizza principalmente l’apprendimento per imitazione per formare gli agenti. Dopo l’addestramento, MIA mostra un comportamento intelligente rudimentale che speriamo di perfezionare in seguito utilizzando il feedback umano. Questo lavoro si concentra sulla creazione di questo precedente comportamentale intelligente e lasciamo ulteriore apprendimento basato sul feedback per il lavoro futuro.

Abbiamo creato l’ambiente Playhouse, un ambiente virtuale 3D composto da un insieme casuale di stanze e un gran numero di oggetti domestici interattivi, per fornire uno spazio e un ambiente in cui esseri umani e agenti possano interagire insieme. Gli esseri umani e gli agenti possono interagire nella Playhouse controllando robot virtuali che si spostano, manipolano oggetti e comunicano tramite testo. Questo ambiente virtuale consente un’ampia gamma di dialoghi situati, che vanno da semplici istruzioni (ad esempio, “Prendi il libro da terra e posizionalo sullo scaffale blu”) al gioco creativo (ad esempio, “Porta il cibo in tavola in modo che possiamo mangiare”).

Abbiamo raccolto esempi umani di interazioni Playhouse utilizzando giochi linguistici, una raccolta di segnali che spingono gli esseri umani a improvvisare determinati comportamenti. In un gioco linguistico un giocatore (il setter) riceve un suggerimento prescritto che indica un tipo di compito da proporre all’altro giocatore (il risolutore). Ad esempio, il setter potrebbe ricevere il messaggio “Fai all’altro giocatore una domanda sull’esistenza di un oggetto” e, dopo un po’ di esplorazione, il setter potrebbe chiedere: “Per favore dimmi se c’è un’anatra blu in una stanza che non non avere nemmeno mobili.” Per garantire una sufficiente diversità comportamentale, abbiamo incluso anche suggerimenti in forma libera, che garantivano ai setter la libera scelta di improvvisare le interazioni (ad esempio “Ora prendi qualsiasi oggetto che ti piace e colpisci la pallina da tennis dallo sgabello in modo che rotola vicino all’orologio, o da qualche parte vicino ad esso.”). In totale, abbiamo raccolto 2,94 anni di interazioni umane in tempo reale nella Playhouse.

Esempio di due umani che interagiscono nella Playhouse.

La nostra strategia di formazione è una combinazione di previsione supervisionata delle azioni umane (clonazione comportamentale) e apprendimento autosupervisionato. Nel prevedere le azioni umane, abbiamo scoperto che l’utilizzo di una strategia di controllo gerarchico migliorava significativamente le prestazioni degli agenti. In questa impostazione, l’agente riceve nuove osservazioni circa 4 volte al secondo. Per ogni osservazione produce una sequenza di azioni di movimento a ciclo aperto ed eventualmente emette una sequenza di azioni linguistiche. Oltre alla clonazione comportamentale utilizziamo una forma di apprendimento autocontrollato, che incarica gli agenti di classificare se determinati input visivi e linguistici appartengono allo stesso episodio o a episodi diversi.

Per valutare le prestazioni degli agenti, abbiamo chiesto ai partecipanti umani di interagire con gli agenti e fornire un feedback binario che indicasse se l’agente ha eseguito con successo un’istruzione. MIA raggiunge una percentuale di successo superiore al 70% nelle interazioni online valutate dagli esseri umani, che rappresentano il 75% della percentuale di successo che gli esseri umani stessi ottengono quando giocano come risolutori. Per comprendere meglio il ruolo delle varie componenti della MIA, abbiamo eseguito una serie di ablazioni, rimuovendo, ad esempio, input visivi o linguistici, la perdita di autocontrollo o il controllo gerarchico.

La ricerca contemporanea sull’apprendimento automatico ha scoperto notevoli regolarità di prestazioni rispetto a diversi parametri di scala; in particolare, le prestazioni del modello si adattano come una legge di potenza alla dimensione del set di dati, alla dimensione del modello e al calcolo. Questi effetti sono stati notati in modo più evidente nel dominio linguistico, che è caratterizzato da enormi dimensioni di set di dati e da architetture e protocolli di addestramento altamente evoluti. In questo lavoro, tuttavia, ci troviamo in un regime decisamente diverso: con set di dati relativamente piccoli e funzioni obiettivo multimodali e multi-task che addestrano architetture eterogenee. Tuttavia, dimostriamo chiari effetti di scalabilità: man mano che aumentiamo il set di dati e le dimensioni del modello, le prestazioni aumentano sensibilmente.

La sonda con script esegue le prestazioni e la valutazione umana per il dimensionamento dei dati e del modello. In entrambi i casi si ottengono miglioramenti delle prestazioni quando si aumentano sia le dimensioni del set di dati che quelle del modello.

In un caso ideale, la formazione diventa più efficiente con un set di dati ragionevolmente ampio, poiché la conoscenza viene trasferita tra le esperienze. Per indagare quanto siano ideali le nostre circostanze, abbiamo esaminato quanti dati sono necessari per imparare a interagire con un oggetto nuovo, mai visto prima, e per imparare a seguire un comando/verbo nuovo, mai sentito prima. Abbiamo suddiviso i nostri dati in dati di background e dati che implicano un’istruzione linguistica che si riferisce all’oggetto o al verbo. Quando abbiamo reintrodotto i dati riferiti al nuovo oggetto, abbiamo riscontrato che erano sufficienti meno di 12 ore di interazione umana per acquisire le prestazioni del soffitto. Analogamente, quando abbiamo introdotto il nuovo comando o verbo ‘ripulire’ (cioè rimuovere tutti gli oggetti da una superficie), abbiamo scoperto che solo 1 ora di dimostrazioni umane era sufficiente per raggiungere il massimo delle prestazioni in compiti che coinvolgevano questa parola.

Quando si apprende un nuovo comando o oggetto, le prestazioni dell’agente migliorano rapidamente con poche ore di esperienza dimostrativa.

MIA mostra un comportamento sorprendentemente ricco, inclusa una varietà di comportamenti che non erano stati preconcetti dai ricercatori, tra cui riordinare una stanza, trovare più oggetti specificati e porre domande chiarificatrici quando un’istruzione è ambigua. Queste interazioni ci ispirano continuamente. Tuttavia, l’indeterminatezza del comportamento del MIA presenta immense sfide per la valutazione quantitativa. Lo sviluppo di metodologie complete per catturare e analizzare il comportamento aperto nelle interazioni uomo-agente sarà un obiettivo importante nel nostro lavoro futuro.

Per una descrizione più dettagliata del nostro lavoro consultare la ns carta.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *