Storicamente, abbiamo utilizzato modelli di machine learning di rinforzo con input specifici per scoprire strategie ottimali per massimizzare metriche ben definite (si pensi a ottenere il punteggio più alto in un gioco arcade). Oggi, al LLM viene assegnato un obiettivo a lungo termine più ambiguo e si prevede di intraprendere azioni che lo realizzerebbero. Il fatto che riteniamo che il LLM sia in grado di avvicinarsi a questo tipo di obiettivo segnala un importante cambiamento nelle aspettative per gli agenti ML.

Figura 5 da la carta mostrando feedback sull'ambiente e sull'esecuzione

Qui, LLM creerà il codice che esegue determinate azioni in Minecraft. Poiché queste tendono ad essere serie di azioni più complesse, le chiamiamo abilità.

Durante la creazione delle competenze che verranno inserite nella libreria delle competenze, gli autori hanno fatto sì che il loro LLM ricevesse 3 tipi distinti di feedback durante lo sviluppo: (1) errori di esecuzione, (2) feedback sull'ambiente e (3) revisione paritaria da un altro LLM.

Gli errori di esecuzione possono verificarsi quando LLM commette un errore con la sintassi del codice, della libreria Mineflayer o di qualche altro elemento rilevato dal compilatore o in fase di esecuzione. Il feedback sull'ambiente proviene dal gioco Minecraft stesso. Gli autori utilizzano il bot.chat() funzionalità all'interno di Mineflayer per ottenere feedback come “Non posso fare stone_shovel perché mi servono: altri 2 bastoncini”. Queste informazioni vengono quindi passate al LLM.

Mentre il feedback sull'esecuzione e sull'ambiente sembra naturale, il feedback della revisione paritaria può sembrare strano. Dopotutto, gestire due LLM è più costoso che gestirne uno solo. Tuttavia, poiché l’insieme di competenze che possono essere create dal LLM è enorme, sarebbe molto difficile scrivere un codice che verifichi che le competenze facciano effettivamente quello che dovrebbero fare. Per aggirare questo problema, gli autori hanno un LLM separato che esamina il codice e fornisce feedback se l'attività è stata completata. Anche se questo non è perfetto quanto verificare a livello di codice il lavoro è finito, è un proxy abbastanza buono.

Figura 6 da la carta

Andando in ordine cronologico, il LLM continuerà a provare a creare un'abilità nel codice mentre gli vengono fornite modalità per migliorare tramite errori di esecuzione, ambiente e feedback tra pari. Una volta che tutti dicono che l'abilità sembra buona, viene aggiunta alla libreria delle abilità per un uso futuro.

Figura 4 da la carta

La Libreria delle competenze contiene le competenze che il LLM ha generato in precedenza e ha attraversato il processo di approvazione nella fase di richiesta iterativa. Ogni abilità viene aggiunta alla libreria prendendone una descrizione e quindi convertendola in un incorporamento. Gli autori quindi prendono la descrizione dell'attività e interrogano la libreria delle competenze per trovare competenze con un incorporamento simile.

Poiché la Libreria delle competenze è un archivio dati separato, è libera di crescere nel tempo. L'articolo non riguarda l'aggiornamento delle competenze già presenti nella libreria, quindi sembrerebbe che una volta appresa l'abilità rimarrà in quello stato. Ciò pone domande interessanti su come aggiornare le competenze man mano che l'esperienza avanza.

Voyager è considerato parte dello spazio degli agenti, dove ci aspettiamo che l'LLM si comporti come un'entità a sé stante, interagendo con l'ambiente e cambiando le cose.

Figura 1d da REAGIRE: SINERGIZZARE RAGIONARE E AGIRE
MODELLI LINGUISTICI carta

A tal fine, ci sono alcune diverse metodologie di suggerimento utilizzate per raggiungere questo obiettivo. Innanzitutto, AutoGPT è una libreria Github che le persone hanno utilizzato per automatizzare molte attività diverse, dalle azioni del file system al semplice sviluppo di software. Successivamente, abbiamo Reflexion che fornisce al LLM un esempio di ciò che è appena accaduto e poi lo fa riflettere su cosa dovrebbe fare la prossima volta in una situazione simile. Usiamo la riflessione sui consigli per dire al giocatore di Minecraft cosa fare. Infine, abbiamo ReAct, che consentirà al LLM di suddividere le attività in passaggi più semplici attraverso un modo di pensare stereotipato. Dall'immagine sopra puoi vedere la formattazione che utilizza.

Ciascuna delle metodologie è stata inserita nel gioco e la tabella seguente mostra i risultati. Solo i metodi AutoGPT e Voyager sono riusciti a raggiungere con successo la fase Wooden Tool. Ciò potrebbe essere una conseguenza dei dati di formazione per i LLM. Con ReAct e Reflexion, sembra che sia necessaria una buona conoscenza del compito da svolgere affinché i suggerimenti siano efficaci. Dalla tabella seguente, possiamo vedere che la metodologia Voyager senza la libreria di abilità è stata in grado di fare meglio di AutoGPT, ma non è riuscita ad arrivare alla categoria finale Diamond Tool. Pertanto, possiamo vedere chiaramente che la Biblioteca delle abilità gioca un ruolo enorme qui. In futuro, le biblioteche di competenze per LLM potrebbero diventare una sorta di fossato per un'azienda.

Tabella 1 da la carta

Il progresso tecnologico è solo un modo di guardare un gioco Minecraft. La figura seguente delinea chiaramente le parti della mappa di gioco esplorate da ciascun LLM. Guarda quanto lontano si spingerà la Voyager sulla mappa rispetto alle altre. Resta da vedere se si tratti di un incidente dovuto a stimoli leggermente diversi o di una parte intrinseca dell'architettura Voyager. Poiché questa metodologia viene applicata ad altre situazioni, avremo una migliore comprensione.

Figura 7 da la carta

Questo documento evidenzia un approccio interessante all'utilizzo degli strumenti. Mentre spingiamo affinché gli LLM abbiano una maggiore capacità di ragionamento, cercheremo sempre più che prendano decisioni basate su tale capacità di ragionamento. Sebbene un LLM che si migliori sarà più prezioso di uno statico, pone anche la domanda: come assicurarsi che non vada fuori strada?

Da un certo punto di vista, ciò è limitato alla qualità delle sue azioni. Il miglioramento in ambienti complessi non è sempre semplice come massimizzare una funzione di ricompensa differenziabile. Pertanto, un'importante area di lavoro qui si concentrerà sulla convalida del fatto che le competenze del LLM stanno migliorando piuttosto che semplicemente cambiando.

Tuttavia, da un punto di vista più ampio, possiamo ragionevolmente chiederci se ci sono alcune competenze o aree in cui il LLM potrebbe diventare troppo pericoloso se lasciato alla propria discrezione. Mi vengono in mente le aree con un impatto diretto sulla vita umana. Ora, aree come questa presentano ancora problemi che i LLM potrebbero risolvere, quindi la soluzione non può essere quella di congelare i progressi qui e consentire invece a persone che altrimenti avrebbero beneficiato del progresso di soffrire. Piuttosto, potremmo vedere un mondo in cui gli LLM mettono in pratica le competenze che gli esseri umani progettano, creando un mondo che unisce l’intelligenza umana e quella artificiale.

È un momento emozionante per costruire.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *