Robotic Transformer 2 (RT-2) è un nuovo modello di visione-linguaggio-azione (VLA) che apprende sia dai dati web che da quelli robotici e traduce questa conoscenza in istruzioni generalizzate per il controllo robotico.

I modelli visione-linguaggio (VLM) ad alta capacità vengono addestrati su set di dati su scala web, rendendo questi sistemi straordinariamente efficaci nel riconoscere modelli visivi o linguistici e nel funzionare in diverse lingue. Ma affinché i robot raggiungano un livello simile di competenza, dovrebbero raccogliere dati personali, in prima persona, su ogni oggetto, ambiente, attività e situazione.

Nel nostro cartapresentiamo Robotic Transformer 2 (RT-2), un nuovo modello di visione-linguaggio-azione (VLA) che apprende sia dai dati web che da quelli robotici e traduce questa conoscenza in istruzioni generalizzate per il controllo robotico, pur mantenendo funzionalità su scala web.

Un modello di linguaggio visivo (VLM) pre-addestrato su dati su scala web sta imparando dai dati di robotica RT-1 per diventare RT-2, un modello di azione di linguaggio visivo (VLA) in grado di controllare un robot.

Questo lavoro si basa su Robotic Transformer 1 (RT-1)un modello addestrato su dimostrazioni multi-task, che può apprendere combinazioni di compiti e oggetti visti nei dati robotici. Più specificamente, il nostro lavoro ha utilizzato dati dimostrativi del robot RT-1 raccolti con 13 robot nell’arco di 17 mesi in un ambiente di cucina d’ufficio.

RT-2 mostra capacità di generalizzazione e comprensione semantica e visiva migliorate oltre i dati robotici a cui è stato esposto. Ciò include l’interpretazione di nuovi comandi e la risposta ai comandi dell’utente eseguendo ragionamenti rudimentali, come ragionamenti su categorie di oggetti o descrizioni di alto livello.

Mostriamo anche che incorporare il ragionamento basato sulla catena di pensiero consente a RT-2 di eseguire un ragionamento semantico in più fasi, come decidere quale oggetto potrebbe essere utilizzato come un martello improvvisato (una roccia) o quale tipo di bevanda è migliore per una persona stanca. (una bevanda energetica).

Adattare i VLM per il controllo robotico

RT-2 si basa su VLM che accettano una o più immagini come input e produce una sequenza di token che, convenzionalmente, rappresentano il testo in linguaggio naturale. Tali VLM sono stati addestrato con successo sui dati su scala web per eseguire attività, come la risposta visiva a domande, la didascalia delle immagini o il riconoscimento di oggetti. Nel nostro lavoro, adattiamo il modello di linguaggio e immagine di Pathways (PaLI-X) e il modello del linguaggio Pathways Emfilled (PaLM-E) per fungere da spina dorsale di RT-2.

Per controllare un robot, è necessario addestrarlo a eseguire azioni. Affrontiamo questa sfida rappresentando le azioni come token nell’output del modello, simili ai token del linguaggio, e descrivendo le azioni come stringhe che possono essere elaborate secondo gli standard tokenizzatori del linguaggio naturalemostrato qui:

Rappresentazione di una stringa di azioni utilizzata nell’addestramento RT-2. Un esempio di tale stringa potrebbe essere una sequenza di numeri di token di azione del robot, ad esempio “1 128 91 241 5 101 127 217”.

La stringa inizia con un flag che indica se continuare o terminare l’episodio in corso, senza eseguire i comandi successivi, e prosegue con i comandi per modificare la posizione e la rotazione dell’end-effector, nonché l’estensione desiderata della pinza del robot.

Utilizziamo la stessa versione discretizzata delle azioni del robot di RT-1 e mostriamo che convertirla in una rappresentazione di stringa rende possibile addestrare modelli VLM su dati robotici, poiché gli spazi di input e output di tali modelli non devono essere cambiato.

Architettura e formazione RT-2: perfezioniamo insieme un modello VLM preaddestrato su robotica e dati web. Il modello risultante acquisisce le immagini della telecamera del robot e prevede direttamente le azioni che un robot dovrà eseguire.

Generalizzazione e abilità emergenti

Abbiamo eseguito una serie di esperimenti qualitativi e quantitativi sui nostri modelli RT-2, su oltre 6.000 prove robotiche. Esplorando le capacità emergenti di RT-2, abbiamo prima cercato compiti che richiedessero la combinazione di conoscenze provenienti da dati su scala web e esperienza del robot, quindi abbiamo definito tre categorie di abilità: comprensione dei simboli, ragionamento e riconoscimento umano.

Ciascun compito richiedeva la comprensione di concetti visivo-semantici e la capacità di eseguire il controllo robotico per operare su tali concetti. Comandi come “raccogli la borsa che sta per cadere dal tavolo” o “muovi la banana per la somma di due più uno” – dove al robot viene chiesto di eseguire un compito di manipolazione su oggetti o scenari mai visti nei dati robotici – richiesti conoscenza tradotta da dati basati sul web per operare.

Esempi di abilità robotiche emergenti che non sono presenti nei dati sulla robotica e richiedono il trasferimento di conoscenze dalla pre-formazione web.

In tutte le categorie, abbiamo osservato un aumento delle prestazioni di generalizzazione (miglioramento di oltre 3 volte) rispetto ai precedenti riferimenti, come i precedenti modelli RT-1 e modelli come Visual Cortex (VC-1), che sono stati pre-addestrati su set di dati visivi di grandi dimensioni.

Tassi di successo delle valutazioni delle competenze emergenti: i nostri modelli RT-2 superano sia le precedenti linee di base del trasformatore robotico (RT-1) che del pre-addestramento visivo (VC-1).

Abbiamo anche eseguito una serie di valutazioni quantitative, iniziando con i compiti originali di RT-1, per i quali abbiamo esempi nei dati del robot, e continuando con vari gradi di oggetti, sfondi e ambienti mai visti prima dal robot che richiedevano al robot di imparare la generalizzazione dalla pre-formazione VLM.

Esempi di ambienti mai visti prima dal robot, in cui RT-2 si generalizza a situazioni nuove.

RT-2 ha mantenuto le prestazioni sui compiti originali osservate nei dati del robot e ha migliorato le prestazioni del robot su scenari mai visti prima, dal 32% al 62% di RT-1, mostrando il notevole vantaggio del pre-addestramento su larga scala.

Inoltre, abbiamo osservato miglioramenti significativi rispetto ai valori di riferimento pre-addestrati su compiti esclusivamente visivi, come VC-1 e Rappresentazioni riutilizzabili per la manipolazione robotica (R3M) e algoritmi che utilizzano VLM per l’identificazione degli oggetti, come la manipolazione di oggetti open-world (MUGGIRE).

RT-2 raggiunge prestazioni elevate su attività visibili nella distribuzione e supera più linee di base su attività invisibili fuori distribuzione.

Valutare il nostro modello sull’open source Tabella delle lingue suite di attività robotiche, abbiamo raggiunto un tasso di successo del 90% nella simulazione, migliorando sostanzialmente rispetto ai precedenti valori di riferimento inclusi BC-Z (72%), RT-1 (74%) e LAVA (77%).

Quindi abbiamo valutato lo stesso modello nel mondo reale (poiché è stato addestrato su simulazione e dati reali) e abbiamo dimostrato la sua capacità di generalizzare a nuovi oggetti, come mostrato di seguito, dove nessuno degli oggetti tranne il cubo blu era presente nell’addestramento set di dati.

RT-2 funziona bene con le attività della tabella linguistica del robot reale. Nessuno degli oggetti tranne il cubo blu era presente nei dati di addestramento.

Ispirato da metodi di suggerimento della catena di pensiero utilizzati nei LLMabbiamo testato i nostri modelli per combinare il controllo robotico con il ragionamento basato sulla catena di pensiero per consentire l’apprendimento della pianificazione a lungo orizzonte e delle competenze di basso livello all’interno di un unico modello.

In particolare, abbiamo messo a punto una variante di RT-2 per poche centinaia di passaggi di gradiente per aumentare la sua capacità di utilizzare linguaggio e azioni congiuntamente. Quindi abbiamo aumentato i dati per includere un ulteriore passaggio di “Pianificazione”, descrivendo prima lo scopo dell’azione che il robot sta per intraprendere in linguaggio naturale, seguito da “Azione” e dai token di azione. Qui mostriamo un esempio di tale ragionamento e il comportamento risultante del robot:

Il ragionamento basato sulla catena di pensiero consente di apprendere un modello autonomo in grado sia di pianificare sequenze di abilità a lungo orizzonte sia di prevedere le azioni dei robot.

Con questo processo, RT-2 può eseguire comandi più complessi che richiedono il ragionamento sui passaggi intermedi necessari per eseguire un’istruzione dell’utente. Grazie alla sua dorsale VLM, RT-2 può anche pianificare sia da comandi di immagine che di testo, consentendo una pianificazione visivamente fondata, mentre gli attuali approcci di pianificazione e azione come SayCan non riescono a vedere il mondo reale e si affidano interamente al linguaggio.

Avanzamento del controllo robotico

RT-2 mostra che i modelli visione-linguaggio (VLM) possono essere trasformati in potenti modelli visione-linguaggio-azione (VLA), che possono controllare direttamente un robot combinando il pre-addestramento VLM con i dati robotici.

Con due istanziazioni di VLA basate su PaLM-E e PaLI-X, RT-2 si traduce in politiche robotiche altamente migliorate e, cosa ancora più importante, porta a prestazioni di generalizzazione e capacità emergenti significativamente migliori, ereditate dalla pre-linguaggio di visione su scala web. -formazione.

RT-2 non è solo una modifica semplice ed efficace rispetto ai modelli VLM esistenti, ma mostra anche la promessa di costruire un robot fisico generico in grado di ragionare, risolvere problemi e interpretare informazioni per eseguire una vasta gamma di compiti nella realtà. mondo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *