Ricerca

Pubblicato
Autori

Scott Reed, Konrad Żołna, Emilio Parisotto, Sergio Gómez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Giménez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards, Nicolas Heess, Yutian Chen, Raia Hadsell, Oriol Vinyals, Mahyar Bordbar e Nando de Freitas

Ispirati dai progressi nella modellazione linguistica su larga scala, applichiamo un approccio simile verso la costruzione di un singolo agente generalista oltre il regno degli output testuali. L’agente, a cui ci riferiamo come Gato, funziona come una politica generalista multimodale, multitask e multi-incarnazione. La stessa rete con gli stessi pesi può riprodurre Atari, didascalie, chat, impilare blocchi con un vero braccio robotico e molto altro, decidendo in base al contesto se produrre testo, coppie congiunte, pressioni di pulsanti o altri token.

Durante la fase di addestramento di Gato, i dati provenienti da diversi compiti e modalità vengono serializzati in una sequenza piatta di token, raggruppati ed elaborati da una rete neurale trasformatore simile a un grande modello linguistico. La perdita viene mascherata in modo che Gato preveda solo azioni e obiettivi di testo.

Quando si distribuisce Gato, un prompt, ad esempio una dimostrazione, viene tokenizzato, formando la sequenza iniziale. Successivamente, l’ambiente produce la prima osservazione, anch’essa tokenizzata e aggiunta alla sequenza. Gato campiona il vettore dell’azione in modo autoregressivo, un token alla volta.

Una volta campionati tutti i token che compongono il vettore dell’azione (determinato dalla specifica dell’azione dell’ambiente), l’azione viene decodificata e inviata all’ambiente che esegue un passo e produce una nuova osservazione. Quindi la procedura si ripete. Il modello vede sempre tutte le osservazioni e azioni precedenti all’interno della sua finestra di contesto di 1024 token.

Gato è formato su un gran numero di set di dati che comprendono l’esperienza degli agenti in ambienti sia simulati che reali, oltre a una varietà di set di dati di linguaggio naturale e immagini. Qui viene visualizzato il numero di attività in cui le prestazioni del modello Gato preaddestrato sono superiori a una percentuale del punteggio esperto, raggruppate per dominio.

Le immagini seguenti mostrano anche come il modello Gato pre-addestrato con gli stessi pesi può eseguire didascalie di immagini, impegnarsi in un dialogo interattivo e controllare un braccio robotico, tra molti altri compiti.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *