
I ricercatori hanno introdotto Ragen, un framework AI progettato per contrastare l'instabilità degli agenti LLM durante la gestione di situazioni complesse.
La formazione di questi agenti di intelligenza artificiale presenta ostacoli significativi, in particolare quando le decisioni abbracciano più passaggi e comportano un feedback imprevedibile dall'ambiente. Mentre l'apprendimento del rinforzo (RL) ha mostrato promesse in compiti statici come risolvere i problemi di matematica o generazione di codice, la sua applicazione alla formazione dinamica di agenti multi-turn è stata meno esplorata.
Affrontare questo divario, un team collaborativo di istituzioni tra cui Northwestern University, Università di Stanford, MicrosoftE Università di New York ha proposto Starbo (ottimizzazione delle politiche di richiamo statale-affini).
Starpo offre un approccio generalizzato per gli agenti di addestramento a livello di traiettoria (cioè ottimizza l'intera sequenza di interazioni, non solo le singole azioni.)
Accompagnando questo è Ragen, un sistema modulare costruito per implementare Starpo. Ciò consente la formazione e la valutazione degli agenti LLM, in particolare concentrandosi sulle loro capacità di ragionamento ai sensi della RL. Ragen fornisce l'infrastruttura necessaria per implementazioni, assegnazione della ricompensa e ottimizzazione all'interno di ambienti multi-turn, stocastici (determinati a caso).
Ambienti minimalisti, approfondimento
Per isolare le sfide di apprendimento fondamentali da fattori confondenti come ampie conoscenze preesistenti o ingegneria specifica delle attività, i ricercatori hanno testato LLM usando Ragen in tre ambienti di gioco simbolici deliberatamente minimalisti e controllabili:
- Bandito: Un ragionamento simbolico sensibile al rischio a singolo svolta stocastica. L'agente sceglie tra opzioni (come armi “Phoenix” o “Dragon”) con profili di ricompensa diversi, inizialmente sconosciuti.
- Sokoban: Un puzzle multi-svolta e deterministico che richiede lungimiranza e pianificazione, poiché le azioni (scatole di spinta) sono irreversibili.
- Lago congelato: Un'attività di navigazione a griglia multi-svolta e stocastica in cui i tentativi di movimento possono fallire casualmente, chiedendo una pianificazione in incertezza.
Questi ambienti consentono un'analisi chiara di come gli agenti apprendono le politiche decisionali esclusivamente attraverso l'interazione.
Risultati chiave: stabilità, lancio e ragionamento
Lo studio ha prodotto tre risultati significativi riguardanti la formazione degli agenti LLM che evolutano:
La “trappola dell'eco” e la necessità di stabilità
Un problema ricorrente osservato durante l'allenamento RL multi-svolta è stato soprannominato la “trappola dell'eco”. Gli agenti inizialmente migliorerebbero, ma quindi subirebbero un crollo delle prestazioni, eccessivamente idonei a modelli di ragionamento premiati localmente.
Ciò è stato contrassegnato dalla varianza della ricompensa che collassa, dalla caduta dell'entropia (una misura di casualità/esplorazione) e picchi improvvisi nei gradienti (indicando l'instabilità dell'allenamento). I primi segni includevano gocce nella deviazione standard di ricompensa e entropia in uscita.
Per combattere questo, il team ha sviluppato Starbo-S, una versione stabilizzata del framework. Starpo-S incorpora:
- Filtro della traiettoria basata sulla varianza: Focalizzare la formazione sulle istanze delle attività in cui il comportamento dell'agente mostra una maggiore incertezza (maggiore varianza della ricompensa), scartando a bassa varianza e implementazioni meno informative. Questa migliore stabilità ed efficienza.
- Incorporazione del critico: Utilizzando metodi come PPO (ottimizzazione della politica prossimale), che impiegano un “critico” per stimare il valore, ha generalmente mostrato una migliore stabilità rispetto ai metodi privi di critico come GRPO (ottimizzazione delle politiche relative del gruppo) nella maggior parte dei test.
- Clipping disaccoppiato e rimozione KL: Tecniche adattate da altre ricerche (DAPO) che coinvolgono il clipping asimmetrico (consentendo un apprendimento più aggressivo da premi positivi) e la rimozione di sanzioni di divergenza KL (incoraggiare l'esplorazione) ha aumentato ulteriormente la stabilità e le prestazioni.
Starbo-S ha costantemente ritardato il collasso e migliorato le prestazioni dell'attività finale rispetto a Vanilla Starpo.
La qualità di lancio è cruciale
Le caratteristiche delle “impugnature” (traiettorie di interazione simulate utilizzate per l'allenamento) incidono significativamente sull'apprendimento. I fattori chiave identificati includono:
- Diversità delle attività: Formazione con una serie diversificata di stati iniziali (suggerimenti), ma con più risposte generate per prompt, generalizzazione dell'AIDS. Il punto debole sembrava essere una diversità moderata che consente il contrasto tra i risultati diversi in scenari simili.
- Granularità di interazione: Consentire a più azioni per turno (circa 5-6 dimostrate ottimale) consente una migliore pianificazione entro un limite di svolta fissa, senza introdurre il rumore associato a sequenze di azioni eccessivamente lunghe.
- Frequenza di lancio: L'uso di implementazioni fresche e aggiornate che riflettono la politica attuale dell'agente è vitale. Il campionamento più frequente (avvicinarsi a un ambiente “online”) porta a una convergenza più rapida e una migliore generalizzazione riducendo la mancata corrispondenza dei dati politici.
Il mantenimento della freschezza, insieme ai budget di azione e alla diversità delle attività, è la chiave per una formazione stabile.
Il ragionamento richiede un'attenta progettazione della ricompensa
Semplicemente spingere i modelli a “pensare” non garantisce un ragionamento significativo emerge, specialmente nelle attività multi-svolta. Lo studio ha trovato:
- Le tracce di ragionamento hanno contribuito alla generalizzazione nel compito di bandito più semplice, a svolta singola, anche quando i segnali simbolici sono in conflitto con i premi.
- In compiti multi-svolta come Sokoban, le prestazioni di ragionamento erano limitate e la durata dei segmenti di “pensiero” è costantemente diminuita durante l'allenamento. Gli agenti spesso sono regrediti alla selezione dell'azione diretta o hanno prodotto “ragionamento allucinato” se i premi hanno monitorato il successo del compito, rivelando una “discrepanza tra pensieri e stati ambientali”.
Ciò suggerisce che i premi a livello di traiettoria standard (spesso sparsi e basati su risultati) sono insufficienti.
“Senza segnali di ricompensa conduciti a grana fine, consapevoli del ragionamento, il ragionamento dell'agente difficilmente emerge tramite RL multi-svolta.”
I ricercatori propongono che i lavori futuri dovrebbero esplorare premi che valutano esplicitamente la qualità delle fasi di ragionamento intermedio, forse usando sanzioni basate sul formato o qualità di spiegazione gratificante, piuttosto che solo risultati finali.
Ragen e Starpo: un passo verso l'IA evolutiva
Il Ragen System e Starpo Framework rappresentano un passo verso la formazione di agenti LLM che possono ragionare e adattarsi attraverso l'interazione in ambienti complessi e imprevedibili.
Questa ricerca evidenzia le sfide di stabilità uniche poste dalla RL multi-svolta e offre strategie concrete-come le tecniche di filtraggio e stabilizzazione di Starbo-S-per mitigarle. Sottolinea anche il ruolo critico delle strategie di generazione di implementazione e la necessità di meccanismi di ricompensa più sofisticati per coltivare il ragionamento autentico, piuttosto che strategie o allucinazioni superficiali.
Pur riconoscendo le limitazioni, compresa la necessità di testare su modelli più grandi e ottimizzare per domini senza premi facilmente verificabili, il lavoro apre “un percorso scalabile e di principio per la costruzione di sistemi di intelligenza artificiale” in aree che richiedono interazioni complesse e risultati verificabili, come la prova del teorema, l'ingegneria del software e la scoperta scientifica.
(Immagine di Gerd Altmann)
Vedi anche: Come giudica AI? Studia antropico i valori di Claude

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.
Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.
Fonte: www.artificialintelligence-news.com