Il metodo ALOHA Unleashed si basa sul nostro ALOHA 2 piattaforma basata sull’originale ALOHA (un sistema hardware open source a basso costo per la teleoperazione bimanuale) da Università di Stanford.
ALOHA 2 è significativamente più abile dei sistemi precedenti perché ha due mani che possono essere facilmente teleoperate per scopi di formazione e raccolta dati e consente ai robot di imparare come eseguire nuovi compiti con meno dimostrazioni.
Abbiamo anche migliorato l’ergonomia dell’hardware robotico e potenziato il processo di apprendimento nel nostro ultimo sistema. Innanzitutto, abbiamo raccolto dati dimostrativi controllando a distanza il comportamento del robot, eseguendo compiti difficili come allacciare i lacci delle scarpe e appendere le magliette. Successivamente, abbiamo applicato un metodo di diffusione, prevedendo le azioni del robot dal rumore casuale, simile al nostro Immagine il modello genera immagini. Ciò aiuta il robot ad apprendere dai dati, in modo che possa eseguire le stesse attività da solo.
Apprendimento dei comportamenti robotici da poche dimostrazioni simulate
Controllare una mano robotica abile è un compito complesso, che diventa ancora più complesso con ogni dito, articolazione e sensore aggiuntivo. In un altro nuova cartapresentiamo DemoStart, che utilizza un algoritmo di apprendimento per rinforzo per aiutare i robot ad acquisire comportamenti abili nella simulazione. Questi comportamenti appresi sono particolarmente utili per incarnazioni complesse, come le mani con più dita.
DemoStart apprende innanzitutto dagli stati facili e, nel tempo, inizia ad apprendere dagli stati più difficili finché non padroneggia un’attività al meglio delle sue capacità. Per imparare a risolvere un compito in simulazione sono necessarie 100 volte meno dimostrazioni simulate rispetto a quanto normalmente necessario quando si impara da esempi del mondo reale per lo stesso scopo.
Il robot ha ottenuto un tasso di successo superiore al 98% in una serie di compiti diversi nella simulazione, tra cui il riorientamento dei cubi con un determinato colore, il serraggio di dadi e bulloni e il riordino degli strumenti. Nella configurazione del mondo reale, ha ottenuto un tasso di successo del 97% nel riorientamento e nel sollevamento del cubo e del 64% in un’attività di inserimento della spina che richiedeva coordinazione e precisione con le dita alte.
Fonte: deepmind.google
