Gemelli Robotics porta AI nel mondo fisico

 | Intelligenza-Artificiale

Ricerca

Pubblicato
Autori

Carolina Parada

Mani dal POV del robot. Una coppia di mani robotiche sposta le piastrelle nella parola

Presentazione di Gemini Robotics, il nostro modello basato su Gemini 2.0 progettato per la robotica

In Google DeepMind, abbiamo fatto progressi nel modo in cui i nostri modelli Gemelli risolvono problemi complessi attraverso un ragionamento multimodale attraverso testo, immagini, audio e video. Finora, tuttavia, tali abilità sono state in gran parte limitate al regno digitale. Affinché l'IA sia utile e utile per le persone nel regno fisico, devono dimostrare un ragionamento “incarnato” – la capacità umana di comprendere e reagire al mondo che ci circonda, oltre a agire in sicurezza per fare le cose.

Oggi stiamo introducendo due nuovi modelli AI, basati su Gemini 2.0, che gettano le basi per una nuova generazione di robot utili.

Il primo è Gemini Robotics, un modello Advanced Vision Language-Action (VLA) che è stato costruito su Gemini 2.0 con l'aggiunta di azioni fisiche come nuova modalità di uscita allo scopo di controllare direttamente i robot. Il secondo è Gemini Robotics-ER, un modello Gemelli con una comprensione spaziale avanzata, che consente ai robot di gestire i propri programmi usando le abilità di ragionamento incarnato (ER) di Gemini.

Entrambi questi modelli consentono a una varietà di robot di eseguire una gamma più ampia di compiti del mondo reale che mai. Come parte dei nostri sforzi, stiamo collaborando con Apptronik per costruire la prossima generazione di robot umanoidi con Gemini 2.0. Stiamo anche lavorando con un numero selezionato di tester affidabili per guidare il futuro di Gemini Robotics-ER.

Non vediamo l'ora di esplorare le capacità dei nostri modelli e continuare a svilupparle sul percorso verso applicazioni del mondo reale.

Gemini Robotics: il nostro modello più avanzato della visione in linguaggio

Per essere utili e utili per le persone, i modelli di intelligenza artificiale per la robotica hanno bisogno di tre qualità principali: devono essere generali, il che significa che sono in grado di adattarsi a diverse situazioni; Devono essere interattivi, il che significa che possono comprendere e rispondere rapidamente alle istruzioni o ai cambiamenti nel loro ambiente; E devono essere abili, il che significa che possono fare il tipo di cose che le persone in genere possono fare con le loro mani e dita, come manipolare con cura gli oggetti.

Mentre il nostro lavoro precedente ha dimostrato progressi in queste aree, Gemini Robotics rappresenta un sostanziale passo nelle prestazioni su tutti e tre gli assi, avvicinandoci ai robot veramente generali.

Generalità

Gemini Robotics sfrutta la comprensione del mondo di Gemini per generalizzare a nuove situazioni e risolvere un'ampia varietà di compiti fuori dalla scatola, compresi i compiti che non ha mai visto prima in formazione. Gemini Robotics è anche abile nel trattare nuovi oggetti, diverse istruzioni e nuovi ambienti. In Il nostro rapporto tecnologicoMostriamo che in media, Gemini Robotics raddoppia le prestazioni su un punto di riferimento completo di generalizzazione rispetto ad altri modelli di visione all'avanguardia.

Una dimostrazione della comprensione mondiale di Gemini Robotics.

Interattività

Per operare nel nostro mondo dinamico e fisico, i robot devono essere in grado di interagire perfettamente con le persone e il loro ambiente circostante e adattarsi ai cambiamenti al volo.

Poiché è costruito su una base di Gemini 2.0, Gemini Robotics è intuitivamente interattiva. Attraversa le capacità di comprensione della lingua avanzata di Gemini e può comprendere e rispondere ai comandi formulati in un linguaggio quotidiano, conversazionale e in lingue diverse.

Può capire e rispondere a una serie molto più ampia di istruzioni in linguaggio naturale rispetto ai nostri modelli precedenti, adattando il suo comportamento al tuo contributo. Monito inoltre continuamente l'ambiente circostante, rileva i cambiamenti nel suo ambiente o istruzioni e regola le sue azioni di conseguenza. Questo tipo di controllo, o “scomparire”, può aiutare meglio le persone a collaborare con gli assistenti robot in una serie di ambientazioni, da casa al posto di lavoro.

Se un oggetto scivola dalla sua portata, o qualcuno muove un oggetto in giro, Gemini Robotics replica rapidamente e porta avanti: una capacità cruciale per i robot nel mondo reale, dove le sorprese sono la norma.

Destrezza

Il terzo pilastro chiave per la costruzione di un robot utile è agire destrezza. Molti compiti quotidiani che gli umani svolgono senza sforzo richiedono capacità motorie sorprendentemente fini e sono ancora troppo difficili per i robot. Al contrario, Gemini Robotics può affrontare compiti estremamente complessi e in più fasi che richiedono una manipolazione precisa come la piegatura degli origami o l'imballaggio di uno spuntino in una borsa Ziploc.

Gemini Robotics mostra livelli avanzati di destrezza

Forniture multiple

Infine, poiché i robot sono disponibili in tutte le forme e dimensioni, Gemini Robotics è stato anche progettato per adattarsi facilmente a diversi tipi di robot. Abbiamo addestrato il modello principalmente sui dati della piattaforma robotica a bi-braccio, Aloha 2Ma abbiamo anche dimostrato che poteva controllare una piattaforma bi-braccio, basata sulle armi di Franka utilizzate in molti laboratori accademici. Gemelli Robotics può anche essere specializzato per forme di realizzazione più complesse, come il robot Apollo umanoide sviluppato da Apptronik, con l'obiettivo di completare i compiti del mondo reale.

Gemini Robotics funziona su diversi tipi di robot

Migliorare la comprensione del mondo di Gemelli

Accanto a Gemini Robotics, stiamo introducendo un modello avanzato in lingua di visione chiamato Gemini Robotics-ER (abbreviazione di “” ragionamento incarnato “). Questo modello migliora la comprensione del mondo da parte di Gemelli in modi necessari per la robotica, concentrandosi soprattutto sul ragionamento spaziale e consente ai robot di collegarlo ai loro controller di basso livello esistenti.

Gemini Robotics-ER migliora le capacità esistenti di Gemini 2.0 come puntare e rilevamento 3D con un grande margine. Combinando il ragionamento spaziale e le capacità di codifica di Gemini, Gemini Robotics-ER può istanziare capacità completamente nuove al volo. Ad esempio, quando viene mostrato una tazza di caffè, il modello può intuire una presa appropriata a due dita per raccoglierla dalla maniglia e una traiettoria sicura per avvicinarsi.

Gemini Robotics-ER può eseguire tutti i passaggi necessari per controllare un robot subito, tra cui percezione, stima dello stato, comprensione spaziale, pianificazione e generazione di codice. In una tale impostazione end-to-end il modello raggiunge un tasso di successo 2x-3x rispetto a Gemini 2.0. E laddove la generazione di codice non è sufficiente, Gemini Robotics-ER può persino attingere al potere dell'apprendimento in contesto, seguendo i modelli di una manciata di dimostrazioni umane per fornire una soluzione.

Gemini Robotics-ER eccelle in capacità di ragionamento incorporate tra cui rilevare oggetti e indicare parti di oggetti, trovare punti corrispondenti e rilevare oggetti in 3D.

Avanzare in modo responsabile AI e robotica

Mentre esploriamo il potenziale continuo di AI e robotica, stiamo prendendo una strati, olistico Approccio per affrontare la sicurezza nella nostra ricerca, dal controllo motorio di basso livello alla comprensione semantica di alto livello.

La sicurezza fisica dei robot e delle persone intorno a loro è una preoccupazione di lunga data e fondamentale nella scienza della robotica. Ecco perché i robot hanno misure di sicurezza classiche come evitare collisioni, limitare l'entità delle forze di contatto e garantire la stabilità dinamica dei robot mobili. Gemini Robotics-ER può essere interfacciato con questi controller critici di sicurezza “di basso livello”, specifici per ogni particolare forma di realizzazione. Basandosi sulle caratteristiche di sicurezza di base di Gemini, consentiamo ai modelli Gemini Robotics-ER di capire se una potenziale azione è sicura da eseguire in un determinato contesto e di generare risposte appropriate.

Per far progredire la ricerca sulla sicurezza della robotica in tutto il mondo accademico e industriale, stiamo anche rilasciando un nuovo set di dati per valutare e migliorare la sicurezza semantica nell'intelligenza artificiale e robotica incorporate. Nel lavoro precedente, abbiamo mostrato come a Costituzione robot Ispirati dalle tre leggi della robotica di Isaac Asimov potrebbero aiutare a spingere un LLM a selezionare attività più sicure per i robot. Da allora abbiamo sviluppato un framework per generare automaticamente costituzioni basate sui dati – regole espresse direttamente in linguaggio naturale – per guidare il comportamento di un robot. Questo quadro consentirebbe alle persone di creare, modificare e applicare costituzioni per sviluppare robot più sicuri e più allineati con i valori umani. Finalmente il Nuovo set di dati Asimov Aiuterà i ricercatori a misurare rigorosamente le implicazioni di sicurezza delle azioni robotiche negli scenari del mondo reale.

Per valutare ulteriormente le implicazioni sociali del nostro lavoro, collaboriamo con esperti nel nostro team di sviluppo e innovazione responsabile e il nostro Consiglio di responsabilità e sicurezza, un gruppo di revisione interno impegnato a garantire che sviluppiamo le applicazioni di intelligenza artificiale. Consultiamo anche specialisti esterni su particolari sfide e opportunità presentate dall'intelligenza artificiale incarnata nelle applicazioni di robotica.

Oltre alla nostra partnership con Apptronik, il nostro modello Gemini Robotics-ER è disponibile anche per i tester di fiducia tra cui robot agili, robot di agilità, dinamiche di Boston e strumenti incantati. Non vediamo l'ora di esplorare le capacità dei nostri modelli e continuare a sviluppare l'intelligenza artificiale per la prossima generazione di robot più utili.

Riconoscimenti

Questo lavoro è stato sviluppato dal team di robotica Gemini. Per un elenco completo di autori e riconoscimenti, visualizzare il nostro rapporto tecnico.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *