Ispirati dai progressi nella modellazione linguistica su larga scala, applichiamo un approccio simile verso la costruzione di un singolo agente generalista oltre il regno degli output testuali. L’agente, a cui ci riferiamo come Gato, funziona come una politica generalista multimodale, multitask e multi-incarnazione. La stessa rete con gli stessi pesi può riprodurre Atari, didascalie, chat, impilare blocchi con un vero braccio robotico e molto altro, decidendo in base al contesto se produrre testo, coppie congiunte, pressioni di pulsanti o altri token.
Durante la fase di addestramento di Gato, i dati provenienti da diversi compiti e modalità vengono serializzati in una sequenza piatta di token, raggruppati ed elaborati da una rete neurale trasformatore simile a un grande modello linguistico. La perdita viene mascherata in modo che Gato preveda solo azioni e obiettivi di testo.
Quando si distribuisce Gato, un prompt, ad esempio una dimostrazione, viene tokenizzato, formando la sequenza iniziale. Successivamente, l’ambiente produce la prima osservazione, anch’essa tokenizzata e aggiunta alla sequenza. Gato campiona il vettore dell’azione in modo autoregressivo, un token alla volta.
Una volta campionati tutti i token che compongono il vettore dell’azione (determinato dalla specifica dell’azione dell’ambiente), l’azione viene decodificata e inviata all’ambiente che esegue un passo e produce una nuova osservazione. Quindi la procedura si ripete. Il modello vede sempre tutte le osservazioni e azioni precedenti all’interno della sua finestra di contesto di 1024 token.
Gato è formato su un gran numero di set di dati che comprendono l’esperienza degli agenti in ambienti sia simulati che reali, oltre a una varietà di set di dati di linguaggio naturale e immagini. Qui viene visualizzato il numero di attività in cui le prestazioni del modello Gato preaddestrato sono superiori a una percentuale del punteggio esperto, raggruppate per dominio.
Le immagini seguenti mostrano anche come il modello Gato pre-addestrato con gli stessi pesi può eseguire didascalie di immagini, impegnarsi in un dialogo interattivo e controllare un braccio robotico, tra molti altri compiti.