Il nuovo agente della fondazione impara a utilizzare diversi bracci robotici, risolve compiti da un minimo di 100 dimostrazioni e migliora grazie ai dati autogenerati.

I robot stanno rapidamente diventando parte della nostra vita quotidiana, ma spesso sono programmati solo per svolgere bene compiti specifici. Mentre sfruttare i recenti progressi nell’intelligenza artificiale potrebbe portare a robot che potrebbero aiutare in molti altri modi, i progressi nella costruzione di robot generici sono più lenti, in parte a causa del tempo necessario per raccogliere dati di addestramento nel mondo reale.

Il nostro ultimo articolo introduce un agente IA auto-migliorante per la robotica, RoboCat, che impara a eseguire una varietà di compiti su diversi bracci e quindi genera automaticamente nuovi dati di addestramento per migliorare la sua tecnica.

Precedenti ricerche hanno esplorato come svilupparsi robot che possono imparare a svolgere più attività su larga scala E combinare la comprensione dei modelli linguistici con le capacità del mondo reale di un robot aiutante. RoboCat è il primo agente a risolvere e adattarsi a molteplici attività e a farlo su diversi robot reali.

RoboCat apprende molto più velocemente rispetto ad altri modelli all’avanguardia. Può intraprendere una nuova attività con appena 100 dimostrazioni perché attinge da un set di dati ampio e diversificato. Questa capacità contribuirà ad accelerare la ricerca sulla robotica, poiché riduce la necessità di formazione supervisionata da esseri umani, e rappresenta un passo importante verso la creazione di un robot per uso generale.

Come RoboCat migliora se stesso

RoboCat si basa sul nostro modello multimodale Gato (spagnolo per “gatto”), che può elaborare linguaggio, immagini e azioni sia in ambienti simulati che fisici. Abbiamo combinato l’architettura di Gato con un ampio set di dati di addestramento composto da sequenze di immagini e azioni di vari bracci robotici che risolvono centinaia di compiti diversi.

Dopo questo primo ciclo di formazione, abbiamo lanciato RoboCat in un ciclo di formazione di “auto-miglioramento” con una serie di compiti mai visti prima. L’apprendimento di ogni nuovo compito ha seguito cinque fasi:

  1. Raccogli 100-1000 dimostrazioni di un nuovo compito o robot, utilizzando un braccio robotico controllato da un essere umano.
  2. Perfeziona RoboCat su questo nuovo compito/braccio, creando un agente spin-off specializzato.
  3. L’agente derivato si esercita su questo nuovo compito/braccio una media di 10.000 volte, generando più dati di formazione.
  4. Incorpora i dati dimostrativi e i dati autogenerati nel set di dati di formazione esistente di RoboCat.
  5. Addestra una nuova versione di RoboCat sul nuovo set di dati di addestramento.
Il ciclo di addestramento di RoboCat, potenziato dalla sua capacità di generare autonomamente dati di addestramento aggiuntivi.

La combinazione di tutta questa formazione fa sì che l’ultimo RoboCat si basi su un set di dati di milioni di traiettorie, provenienti da bracci robotici sia reali che simulati, inclusi dati autogenerati. Abbiamo utilizzato quattro diversi tipi di robot e molti bracci robotici per raccogliere dati basati sulla visione che rappresentassero i compiti per cui RoboCat sarebbe stato addestrato a svolgere.

RoboCat apprende da una vasta gamma di tipi di dati e attività di addestramento: video di un vero braccio robotico che raccoglie ingranaggi, un braccio simulato che impila blocchi e RoboCat che utilizza un braccio robotico per raccogliere un cetriolo.

Imparare a utilizzare nuovi bracci robotici e risolvere compiti più complessi

Grazie alla formazione diversificata di RoboCat, ha imparato a utilizzare diversi bracci robotici in poche ore. Sebbene fosse stato addestrato su bracci con pinze a due dita, è stato in grado di adattarsi a un braccio più complesso con una pinza a tre dita e il doppio degli input controllabili.

Sinistra: Un nuovo braccio robotico che RoboCat ha imparato a controllare
Giusto: Video di RoboCat che usa il braccio per prendere gli ingranaggi

Dopo aver osservato 1000 dimostrazioni controllate dall’uomo, raccolte in poche ore, RoboCat è riuscito a dirigere questo nuovo braccio con sufficiente destrezza da raccogliere gli ingranaggi con successo nell’86% delle volte. Con lo stesso livello di dimostrazioni, potrebbe adattarsi per risolvere compiti che uniscono precisione e comprensione, come rimuovere il frutto corretto da una ciotola e risolvere un puzzle di abbinamento delle forme, necessari per un controllo più complesso.

Esempi di compiti RoboCat può adattarsi alla risoluzione dopo 500-1000 dimostrazioni.

Il generalista che si auto-migliora

RoboCat ha un ciclo virtuoso di formazione: più nuove attività apprende, migliore diventa nell’apprenderne di nuove. La versione iniziale di RoboCat ha avuto successo solo il 36% delle volte in attività mai viste prima, dopo aver appreso da 500 dimostrazioni per attività. Ma l’ultimo RoboCat, che si è formato su una maggiore varietà di compiti, ha più che raddoppiato il tasso di successo negli stessi compiti.

La grande differenza nelle prestazioni tra il RoboCat iniziale (un ciclo di formazione) rispetto alla versione finale (formazione ampia e diversificata, compreso l’auto-miglioramento) dopo che entrambe le versioni sono state messe a punto su 500 dimostrazioni di compiti mai visti prima.

Questi miglioramenti erano dovuti alla crescente ampiezza dell’esperienza di RoboCat, in modo simile al modo in cui le persone sviluppano una gamma più diversificata di competenze man mano che approfondiscono il proprio apprendimento in un determinato dominio. La capacità di RoboCat di apprendere in modo indipendente le competenze e di auto-migliorarsi rapidamente, soprattutto se applicata a diversi dispositivi robotici, aiuterà ad aprire la strada verso una nuova generazione di agenti robotici più utili e generici.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *