Gradienti politici: la fondazione di RLHF |  di Cameron R. Wolfe, Ph.D.  |  Febbraio 2024

 | Intelligenza-Artificiale

Comprendere l’ottimizzazione delle politiche e come viene utilizzata nell’apprendimento per rinforzo

(Fotografato da Tog sbagliato SU Unsplash)

Sebbene utile per una varietà di applicazioni, l’apprendimento per rinforzo (RL) è una componente chiave del processo di allineamento per i modelli linguistici di grandi dimensioni (LLM) grazie al suo utilizzo in apprendimento per rinforzo dal feedback umano (RLHF). Sfortunatamente, l’RL è meno ampiamente compreso all’interno della comunità dell’intelligenza artificiale. Vale a dire, molti professionisti (incluso me stesso) hanno più familiarità con le tecniche di apprendimento supervisionato, il che crea un pregiudizio implicito contro l’uso di RL nonostante la sua enorme utilità. All’interno di questa serie di panoramiche, il nostro obiettivo è mitigare questo pregiudizio attraverso un sondaggio completo di RL che inizia con idee di base e si sposta verso algoritmi moderni come ottimizzazione della politica prossimale (PPO) (7) che sono ampiamente utilizzati per RLHF.

Tassonomia dei moderni algoritmi RL (da (5))

Questa panoramica. Come mostrato sopra, esistono due tipi di algoritmi RL senza modello: Q-Learning e Policy Optimization. In precedenza, abbiamo appreso il Q-Learning, le basi di RL e come queste idee possono essere generalizzate per la messa a punto del modello linguistico. All’interno di questa panoramica, esamineremo l’ottimizzazione delle politiche e i gradienti delle politiche, due idee ampiamente utilizzate dai moderni algoritmi RL. Qui ci concentreremo sulle idee fondamentali alla base dell’ottimizzazione delle politiche e sulla derivazione di un gradiente politico, oltre a coprire alcune varianti comuni di queste idee. In particolare, PPO (7) — l’algoritmo RL più comunemente utilizzato per la messa a punto degli LLM – è una tecnica di ottimizzazione delle politiche, che rende l’ottimizzazione delle politiche un concetto di fondamentale importanza per mettere a punto gli LLM con RL.

“In poche parole, RL è lo studio degli agenti e di come apprendono per tentativi ed errori. Formalizza l’idea che premiare o punire un agente per il suo comportamento rende più probabile che ripeta o rinunci a quel comportamento in futuro”. — da (5)

In un panoramica preventivaabbiamo appreso la struttura del problema che viene tipicamente utilizzata per l’apprendimento per rinforzo (RL) e come questa struttura può essere generalizzata all’impostazione della messa a punto di un modello linguistico. Comprendere queste idee fondamentali è…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *