Risolvere i problemi di ragionamento con gli LLM nel 2023 | di Zhaocheng Zhu | Gennaio 2024 | Intelligenza-Artificiale

Indice contenuti

Pianificazione

Uno svantaggio del ragionamento in stile CoT è che gli LLM devono decodificare avidamente un percorso verso una risposta. Ciò è problematico per problemi complessi come domande di matematica o giochi, poiché è difficile prevedere un percorso senza tentativi ed errori. Nel 2023, la comunità ha compiuto alcuni progressi su questo tema con nuovi framework che consentono la pianificazione con LLM.

➡️ Se concettualizziamo CoT come ragionamento del “sistema 1” – caratterizzato dalla sua natura automatica e inconscia – allora sorge una domanda: è possibile replicare il ragionamento più consapevole del “sistema 2” degli esseri umani che utilizzano LLM? Questa query trova rilevanza in due metodologie: ragionamento tramite pianificazione (RAP) E albero dei pensieri (ToT). Entrambi consentono ai LLM di navigare attraverso possibili fasi di ragionamento e di cercare la catena di ragionamento ottimale sulla base di valutazioni specifiche. Il RAP propone inoltre un LLM come “modello mondiale”, che prevede gli stati successivi a seguito delle azioni. Ciò consente al LLM di operare all’interno di un mondo auto-simulato, invece di interagire con un ambiente esterno. Entrambi gli algoritmi sono disponibili in Ragionatori LLM biblioteca adesso!

RAP che ripropone gli LLM come agente e modello mondiale. Fonte: Hao et al.

Serie del sé

Le serie self sono una famiglia di tecniche che sostituiscono gli sforzi umani con previsioni LLM nel ciclo di sviluppo LLM. L’anno 2023 ha visto parecchi articoli su questo binario. Diamo uno sguardo più da vicino ad alcune opere rappresentative.

➡️ Molte persone hanno l’esperienza che ChatGPT non fornisce l’output desiderato al primo tentativo, e questo a volte può essere risolto segnalando il suo errore. Autodebug E autoperfezionamento automatizzare questa procedura sostituendo il feedback umano con il feedback della macchina. Il feedback proviene da un esecutore del programma o da un LLM che confronta la generazione con la spiegazione del problema. Un’osservazione chiave è che le prestazioni dell’auto-perfezionamento dipendono dalla qualità del feedback, dove i modelli di base più forti che forniscono un feedback migliore traggono maggiori benefici. Tali metodi di perfezionamento iterativi hanno dimostrato di essere estremamente efficaci anche nel stima della posa E previsione della struttura delle proteinedove è difficile prevedere la struttura in una singola analisi.

Illustrazione dell’autodebug. Fonte: Chen et al.

➡️ Nella memoria del pensiero (Contro) quadro da Li e Qiugli autori chiedono a un LLM di generare motivazioni CoT su un set di dati senza etichetta e di utilizzarli per RAG. Potresti chiederti come ciò possa essere utile dato che le motivazioni generate spesso contengono errori. Il trucco chiave è filtrare le motivazioni basate sul voto a maggioranza o sulla minimizzazione dell’entropia (un’idea simile viene utilizzata in Wan et al. filtrare le motivazioni). Una volta che abbiamo buone motivazioni sul set di dati senza etichetta, recuperiamo dinamicamente esempi con pochi scatti in base alla domanda del test, che si è dimostrato molto migliore degli esempi fissi con pochi scatti. Il MoT può essere interpretato come la conversione di un modello parametrico in un modello non parametrico senza ulteriore supervisione.

MoT che genera e richiama la memoria. Fonte: Li e Qiu.

➡️ Andando oltre il MoT, Yasunaga et al. proposto suggestione analogica ciò elimina la necessità di scaricare motivazioni su un set di dati senza etichetta. Il suggerimento analogico chiede a un LLM di richiamare esemplari rilevanti in base alla domanda, generando così da zero esemplari dinamici con pochi scatti. In effetti, gli autori hanno scoperto che il suggerimento analogico è un’abilità emergente in ampi modelli linguistici, simili ai lavori precedenti sull’argomento risposta a domande su dominio aperto. Gli LLM su larga scala possono autogenerare esempi migliori rispetto alle soluzioni RAG standard. Inoltre, questo lavoro fornisce un trucco interessante per fondere generazioni a più passaggi in un unico prompt con una grammatica di ribasso: una manna dal cielo per gli ingegneri rapidi con un budget limitato! 💡

Suggestione analogica. Fonte: Yasunaga et al.

➡️ Autoperfezionarsi e autogenerarsi sono il limite del ragionamento LLM? Yang et al. mostrare un utilizzo più avanzato delle capacità di ragionamento degli LLM – per ottimizzare un prompt in base alla cronologia dei prompt generati. Questa è una bella reinvenzione del famoso documento di meta-apprendimento “Imparare ad apprendere per gradiente di discesa per gradiente di discesa”, ma tutti i passaggi qui vengono eseguiti da LLM sul testo. Ad ogni passaggio, a un LLM vengono fornite le soluzioni precedenti e le corrispondenti metriche delle prestazioni e tenta di prevedere una nuova soluzione. In particolare, anche senza dire al LLM come eseguire l’ottimizzazione, il LLM può gradualmente trovare soluzioni migliori che massimizzano la metrica. Forse questo lavoro avvicina gli ingegneri tempestivi alla disoccupazione?

Prestazioni dei prompt ottimizzati da LLM. Fonte: Yang et al.

🔁 Probabilmente il lavoro 👀 più illuminante nelle serie self-service è l’ottimizzatore autodidatta (FERMARE) di Zelikman et al. Sappiamo che i LLM sono guidati da istruzioni testuali, prendono i testi come testi di input e output. Sebbene questi testi siano solitamente variabili separate, cosa accadrebbe se li modelliamo come un’unica variabile? In STOP gli autori traggono ispirazione da codice automodificante e utilizzare un suggerimento di auto-miglioramento per migliorare se stesso.

L’ammendante che migliora se stesso in STOP. Fonte: Zelikman et al.

Sebbene il prompt seed non sia più complicato di un algoritmo di ricerca casuale, con un LLM potente è possibile scoprire molti algoritmi metaeuristici avanzati. È interessante notare che GPT-4 scopre molte strategie di suggerimento pubblicate dopo il termine dell’addestramento per GPT-4, tra cui Fino a E Pacco. Sembra che si stia avvicinando il giorno in cui i LLM condurranno ricerche per conto proprio. Un passo in questa direzione è un recente lavoro di Huang et al. dimostrando che gli LLM sono in grado di progettare modelli ML per benchmark comuni e persino sfide di Kaggle.

Algoritmi trovati da STOP. Fonte: Zelikman et al.

Valutazioni e osservazioni

➡️ Kandpal et al. ha condotto uno studio sistematico sulla capacità di memorizzazione dei LLM. Hanno chiesto a un LLM domande fattuali da Wikipedia e hanno scoperto che l’accuratezza è altamente correlata alla frequenza delle entità interrogate nei documenti di preformazione, indipendentemente dalla scala del modello. Estrapolando la tendenza, gli autori stimano che sia necessario un modello con 10¹⁸ per eguagliare le prestazioni umane su entità a coda lunga, che è molto più grande degli LLM di oggi. Quindi un aspetto importante è utilizzare il ragionamento LLM per attività relative alla conoscenza frequente e considerare RAG o altri strumenti per attività relative alla conoscenza a coda lunga.

Gli LLM difficilmente riescono a memorizzare la conoscenza a coda lunga. Fonte: Kandpal et al.

➡️ Mentre la comunità cerca di costruire miscele più grandi per la formazione dei LLM, una preoccupazione è che i LLM potrebbero non imparare a ragionare effettivamente ma semplicemente a memorizzare le soluzioni dalla distribuzione della formazione, proprio come gli esseri umani in insegnamento alla prova. Wu et al. risponde a questa preoccupazione confrontando le prestazioni di GPT-4 con CoT zero-shot su 11 attività diverse, ciascuna con un’impostazione predefinita e un’impostazione controfattuale. Osservano che, nonostante gli LLM abbiano prestazioni migliori rispetto a quelle casuali nelle impostazioni controfattuali, le loro prestazioni sono costantemente inferiori a quelle delle impostazioni predefinite. Resta una questione aperta come possiamo addestrare i modelli a concentrarsi maggiormente sul ragionamento piuttosto che sulla memorizzazione.

GPT-4 ha prestazioni inferiori rispetto alle varianti controfattuali. Fonte: Wu et al.

➡️ Saparov et al. esteso un set di dati sintetico ProntoQA all’impostazione OOD per testare la capacità di generalizzazione dei LLM sul ragionamento deduttivo con profondità, ampiezza, struttura compositiva controllate, ecc. Gli autori hanno scoperto che CoT può generalizzare a prove compositive e più lunghe. Ciò è in contrasto con le conclusioni precedenti in merito analisi semantica compositivaforse perché il ragionamento deduttivo richiede solo la composizione di passaggi di deduzione, mentre l’analisi semantica si occupa inoltre di output crescenti. Sebbene gli LLM siano in grado di utilizzare la maggior parte delle regole di detrazione, ne richiedono dimostrazioni esplicite prova per casi E prova per contraddizione. Esistono anche differenze qualitative controintuitive tra l’apprendimento in contesto e l’apprendimento supervisionato.

Generalizzazione OOD sul ragionamento deduttivo. Fonte: Saparov et al.

➡️ Per quanto riguarda le conoscenze parametriche negli LLM, Berglund et al. hanno scoperto un fenomeno che hanno chiamato maledizione dell’inversione. Cioè, gli LLM addestrati a memorizzare “A è B” non sanno che “B è A” nelle risposte alle domande a libro chiuso, nonostante possa essere loro richiesto di eseguire un ragionamento deduttivo. Ciò indica che gli LLM mancano di alcuni tipi di simmetria nella sua conoscenza parametrica, ed è fondamentale dotarli di tale simmetria per consentire una migliore generalizzazione. In realtà, la comunità del knowledge graph è stata leader in quest’area, con lavori come Equivarianza di doppia permutazione E rotazione relazionale. Sarebbe interessante vedere come queste idee si adattano ai LLM.

Fonte: towardsdatascience.com