RLAIF: apprendimento per rinforzo dal feedback dell'intelligenza artificiale | di Cameron R. Wolfe, Ph.D. | Gennaio 2024 | Intelligenza-Artificiale

Rendere l’allineamento tramite RLHF più scalabile automatizzando il feedback umano…

(Fotografato da Scimmia Rock’n’Roll SU Unsplash)

Oltre all’utilizzo di modelli e set di dati più grandi per il pre-addestramento, il drastico aumento della qualità del modello LLM (Large Language Model) è dovuto ai progressi nel processo di allineamento, che è in gran parte alimentato da tecniche di finetuning come il finetuning supervisionato (SFT) e l’apprendimento per rinforzo da feedback umano (RLHF). RLHF in particolare è una tecnica interessante, poiché ci consente di mettere a punto direttamente un modello linguistico basato sulle preferenze fornite dall’uomo. In parole povere, possiamo semplicemente insegnare al modello a produrre i risultati che gli esseri umani preferiscono, il che costituisce un quadro flessibile e potente. Tuttavia, ciò richiede la raccolta di una grande quantità di etichette delle preferenze umane, il che può essere costoso e richiedere molto tempo. All’interno di questa panoramica, esploreremo la ricerca recente che mira ad automatizzare la raccolta delle preferenze umane per RLHF utilizzando l’intelligenza artificiale, formando una nuova tecnica nota come apprendimento per rinforzo dal feedback dell’intelligenza artificiale (RLAIF).

Il processo di formazione del modello linguistico si sviluppa in più fasi; vedi sopra. Innanzitutto, preaddestriamo il modello su un ampio corpus di dati testuali senza etichetta, che rappresenta la parte più costosa dell’addestramento. Dopo la formazione preliminare, eseguiamo un processo di allineamento in tre parti, che include sia la messa a punto supervisionata (SFT) che l’apprendimento per rinforzo dal feedback umano (RLHF); vedi sotto. L’allineamento tramite SFT/RLHF è stato utilizzato in (10) per riassumere il testo con LLM ed esplorato per migliorare le capacità di seguire le istruzioni in LLM generici da InstructGPT (11), il modello gemello di ChatGPT. Da allora questo approccio è diventato standardizzato e viene utilizzato da una varietà di modelli potenti.

Altro su RLHF. All’interno di questa panoramica, ci concentreremo principalmente sulla fase di allineamento RLHF, che mette a punto il LLM direttamente sul feedback umano. In poche parole, gli esseri umani identificano gli output che preferiscono e il LLM impara a produrre più output come questo. Più specificamente, noi io) ottenere una serie di istruzioni da utilizzare per RLHF, ii) generare due o più risposte a ciascun prompt con il nostro modello linguistico e iii)…

Fonte: towardsdatascience.com