Ricerca

Pubblicato
Autori

Siqi Liu, Leonard Hasenclever, Steven Bohez, Guy Lever, Zhe Wang, SM Ali Eslami, Nicolas Heess

Utilizzo di movimenti umani e animali per insegnare ai robot a dribblare una palla e simulazioni di personaggi umanoidi per trasportare scatole e giocare a calcio

Il personaggio umanoide impara ad attraversare un percorso a ostacoli attraverso tentativi ed errori, che possono portare a soluzioni peculiari. Heess et al. “Emergenza di comportamenti di locomozione in ambienti ricchi” (2017).

Cinque anni fa, abbiamo accettato la sfida di insegnare a un personaggio umanoide completamente articolato attraversare percorsi a ostacoli. Ciò ha dimostrato ciò che l’apprendimento per rinforzo (RL) può ottenere attraverso tentativi ed errori, ma ha anche evidenziato due sfide da risolvere incarnato intelligenza:

  1. Riutilizzare comportamenti precedentemente appresi: Era necessaria una quantità significativa di dati affinché l’agente “decollasse”. Senza alcuna conoscenza iniziale di quale forza applicare a ciascuna delle sue articolazioni, l’agente ha iniziato con contrazioni casuali del corpo e cadendo rapidamente a terra. Questo problema potrebbe essere alleviato riutilizzando comportamenti appresi in precedenza.
  2. Comportamenti idiosincratici: Quando l’agente finalmente imparò a percorrere i percorsi a ostacoli, lo fece con un metodo innaturale (anche se divertente) modelli di movimento che sarebbero poco pratici per applicazioni come la robotica.

Qui descriviamo una soluzione ad entrambe le sfide chiamate primitive motorie probabilistiche neurali (NPMP), che coinvolgono l’apprendimento guidato con schemi di movimento derivati ​​da esseri umani e animali, e discutiamo come questo approccio viene utilizzato nel nostro Carta da calcio umanoide, pubblicato oggi su Science Robotics.

Discuteremo anche di come questo stesso approccio consenta la manipolazione dell’intero corpo umanoide dalla visione, come un umanoide che trasporta un oggetto, e il controllo robotico nel mondo reale, come un robot che dribbla una palla.

Distillazione dei dati in primitive motorie controllabili utilizzando NPMP

Un NPMP è un modulo di controllo motorio per uso generico che traduce le intenzioni motorie a breve orizzonte in segnali di controllo di basso livello ed è addestrato offline O tramite RL imitando i dati di motion capture (MoCap), registrati con tracker su esseri umani o animali che eseguono movimenti di interesse.

Un agente che impara a imitare una traiettoria MoCap (mostrata in grigio).

Il modello è composto da due parti:

  1. Un codificatore che prende una traiettoria futura e la comprime in un’intenzione motoria.
  2. Un controller di basso livello che produce l’azione successiva dato lo stato attuale dell’agente e questa intenzione motoria.

Il nostro modello NPMP distilla innanzitutto i dati di riferimento in un controller di basso livello (a sinistra). Questo controller di basso livello può quindi essere utilizzato come modulo di controllo motore plug-and-play in una nuova attività (a destra).

Dopo l’addestramento, il controller di basso livello può essere riutilizzato per apprendere nuovi compiti, mentre un controller di alto livello è ottimizzato per emettere direttamente le intenzioni motorie. Ciò consente un’esplorazione efficiente – poiché vengono prodotti comportamenti coerenti, anche con intenzioni motorie campionate casualmente – e vincola la soluzione finale.

Coordinamento di squadra emergente nel calcio umanoide

Il calcio è stato una sfida di lunga data per la ricerca sull’intelligenza incarnata, che richiede competenze individuali e gioco di squadra coordinato. Nel nostro ultimo lavoro, abbiamo utilizzato un NPMP come guida preliminare all’apprendimento delle abilità motorie.

Il risultato è stato una squadra di giocatori che è passata dall’apprendimento dell’abilità di rincorrere la palla fino all’apprendimento della coordinazione. In precedenza, nell’a studiare con semplici forme di realizzazioneavevamo dimostrato che un comportamento coordinato può emergere in squadre in competizione tra loro. L’NPMP ci ha permesso di osservare un effetto simile ma in uno scenario che richiedeva un controllo motorio significativamente più avanzato.

Gli agenti prima imitano il movimento dei giocatori di football per apprendere un modulo NPMP (in alto). Utilizzando l’NPMP, gli agenti apprendono quindi competenze specifiche del calcio (in basso).

I nostri agenti hanno acquisito competenze tra cui locomozione agile, passaggio e divisione del lavoro, come dimostrato da una serie di statistiche, comprese le metriche utilizzate in analisi dello sport nel mondo reale. I giocatori mostrano sia un agile controllo motorio ad alta frequenza che un processo decisionale a lungo termine che implica l’anticipazione dei comportamenti dei compagni di squadra, portando a un gioco di squadra coordinato.

Un agente che impara a giocare a calcio in modo competitivo utilizzando RL multi-agente.

Manipolazione di tutto il corpo e compiti cognitivi utilizzando la visione

Imparare a interagire con gli oggetti usando le braccia è un’altra difficile sfida di controllo. L’NPMP può anche consentire questo tipo di manipolazione di tutto il corpo. Con una piccola quantità di dati MoCap sull’interazione con le scatole, siamo in grado di farlo addestrare un agente a trasportare una scatola da un luogo all’altro, utilizzando una visione egocentrica e con solo uno scarso segnale di ricompensa:

Con una piccola quantità di dati MoCap (in alto), il nostro approccio NPMP può risolvere il compito di trasportare una scatola (in basso).

Allo stesso modo, possiamo insegnare all’agente a prendere e lanciare palle:

Umanoide simulato che cattura e lancia una palla.

Umanoide simulato che raccoglie sfere blu in un labirinto.

Controllo sicuro ed efficiente dei robot del mondo reale

L’NPMP può anche aiutare a controllare i robot reali. Avere un comportamento ben regolarizzato è fondamentale per attività come camminare su terreni accidentati o maneggiare oggetti fragili. I movimenti nervosi possono danneggiare il robot stesso o l’ambiente circostante o almeno scaricarne la batteria. Pertanto, viene spesso investito uno sforzo significativo nella progettazione di obiettivi di apprendimento che facciano sì che un robot faccia ciò che vogliamo comportandosi in modo sicuro ed efficiente.

In alternativa, abbiamo valutato se utilizzare a priori derivati ​​dal movimento biologico può fornirci abilità di movimento ben regolarizzate, dall’aspetto naturale e riutilizzabili per i robot con gambe, come camminare, correre e girare, adatte per l’implementazione su robot del mondo reale.

Partendo dai dati MoCap di esseri umani e cani, abbiamo adattato l’approccio NPMP per addestrare abilità e controllori nella simulazione che possono poi essere implementati rispettivamente su robot umanoidi reali (OP3) e quadrupedi (ANYmal B). Ciò ha permesso ai robot di essere guidati da un utente tramite un joystick o di dribblare una palla verso una posizione target in modo robusto e dall’aspetto naturale.

Le abilità di locomozione del robot ANYmal vengono apprese imitando il cane MoCap.

Le abilità di locomozione possono quindi essere riutilizzate per camminare controllabilmente e dribblare la palla.

Vantaggi dell’utilizzo di primitive motorie probabilistiche neurali

In sintesi, abbiamo utilizzato il modello di abilità NPMP per apprendere compiti complessi con personaggi umanoidi nella simulazione e con robot del mondo reale. L’NPMP racchiude abilità di movimento di basso livello in modo riutilizzabile, rendendo più facile l’apprendimento di comportamenti utili che sarebbero difficili da scoprire attraverso tentativi ed errori non strutturati. Utilizzando la motion capture come fonte di informazioni preliminari, si orienta l’apprendimento del controllo motorio verso quello dei movimenti naturalistici.

L’NPMP consente agli agenti incarnati di apprendere più rapidamente utilizzando RL; apprendere comportamenti più naturalistici; apprendere comportamenti più sicuri, efficienti e stabili adatti alla robotica del mondo reale; e combinare il controllo motorio di tutto il corpo con capacità cognitive di orizzonte più lungo, come il lavoro di squadra e la coordinazione.

Scopri di più sul nostro lavoro:

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *