![Un agente generalista
| Intelligenza-Artificiale Un agente generalista
| Intelligenza-Artificiale](https://intelligenza-artificiale.eu/wp-content/uploads/2023/09/Un-agente-generalista-Intelligenza-Artificiale.png)
Ispirati dai progressi nella modellazione linguistica su larga scala, applichiamo un approccio simile verso la costruzione di un singolo agente generalista oltre il regno degli output testuali. L’agente, a cui ci riferiamo come Gato, funziona come una politica generalista multimodale, multitask e multi-incarnazione. La stessa rete con gli stessi pesi può riprodurre Atari, didascalie, chat, impilare blocchi con un vero braccio robotico e molto altro, decidendo in base al contesto se produrre testo, coppie congiunte, pressioni di pulsanti o altri token.
![](https://assets-global.website-files.com/621e749a546b7592125f38ed/627d13d743dc353a184da8d4_data_sequences.png)
Durante la fase di addestramento di Gato, i dati provenienti da diversi compiti e modalità vengono serializzati in una sequenza piatta di token, raggruppati ed elaborati da una rete neurale trasformatore simile a un grande modello linguistico. La perdita viene mascherata in modo che Gato preveda solo azioni e obiettivi di testo.
![](https://assets-global.website-files.com/621e749a546b7592125f38ed/627d148b710554b355ec4d28_diagram_train%20(1)-1.png)
Quando si distribuisce Gato, un prompt, ad esempio una dimostrazione, viene tokenizzato, formando la sequenza iniziale. Successivamente, l’ambiente produce la prima osservazione, anch’essa tokenizzata e aggiunta alla sequenza. Gato campiona il vettore dell’azione in modo autoregressivo, un token alla volta.
Una volta campionati tutti i token che compongono il vettore dell’azione (determinato dalla specifica dell’azione dell’ambiente), l’azione viene decodificata e inviata all’ambiente che esegue un passo e produce una nuova osservazione. Quindi la procedura si ripete. Il modello vede sempre tutte le osservazioni e azioni precedenti all’interno della sua finestra di contesto di 1024 token.
![](https://assets-global.website-files.com/621e749a546b7592125f38ed/627d14de5d578e1ad6af2aee_eval_sequence-1.png)
Gato è formato su un gran numero di set di dati che comprendono l’esperienza degli agenti in ambienti sia simulati che reali, oltre a una varietà di set di dati di linguaggio naturale e immagini. Qui viene visualizzato il numero di attività in cui le prestazioni del modello Gato preaddestrato sono superiori a una percentuale del punteggio esperto, raggruppate per dominio.
![](https://assets-global.website-files.com/621e749a546b7592125f38ed/627d15240b604dc2628bc05f_barplot_domains.png)
Le immagini seguenti mostrano anche come il modello Gato pre-addestrato con gli stessi pesi può eseguire didascalie di immagini, impegnarsi in un dialogo interattivo e controllare un braccio robotico, tra molti altri compiti.
![](https://assets-global.website-files.com/621e749a546b7592125f38ed/627d15dba01b303962bf0014_image_captions_v3-1.png)
![](https://assets-global.website-files.com/621e749a546b7592125f38ed/627d161a9709ad24126a513b_dialogue_examples_g1-1.png)
![](https://assets-global.website-files.com/621e749a546b7592125f38ed/627d1648c0eef89f6a91f370_real_robot_blue_on_green.png)