Recenti ricerche sull’intelligenza artificiale hanno rivelato che l’apprendimento per rinforzo (RL) – in particolare, l’apprendimento per rinforzo dal feedback umano (RLHF). — è una componente chiave della formazione di modelli linguistici di grandi dimensioni (LLM). Tuttavia, molti professionisti dell’intelligenza artificiale (è vero) evitano l’uso di RL a causa di diversi fattori, tra cui la mancanza di familiarità con RL o la preferenza per le tecniche di apprendimento supervisionato. Esistono argomenti validi contro l’uso di RL; ad esempio, la cura dei dati sulle preferenze umane è costosa e RL può essere un dato inefficiente. Tuttavia, non dovremmo evitare di usare RL semplicemente per mancanza di comprensione o familiarità! Queste tecniche non sono difficili da comprendere e, come dimostrato da una serie di articoli recenti, possono apportare enormi vantaggi alle prestazioni LLM.
Questa panoramica è la terza parte di una serie che mira a demistificare RL e come viene utilizzato per formare LLM. Sebbene fino a questo punto abbiamo trattato principalmente idee fondamentali relative a RL, ora ci immergeremo nell’algoritmo che pone le basi per l’allineamento del modello linguistico: Ottimizzazione della politica prossimale (PPO) (2). Come vedremo, PPO funziona bene ed è incredibilmente facile da comprendere e utilizzare, rendendolo un algoritmo desiderabile dal punto di vista pratico. Per questi motivi, PPO è stato originariamente selezionato nell’implementazione di RLHF utilizzato da OpenAI per allineare InstructGPT (6). Poco dopo, la divulgazione del modello gemello di InstructGPT, ChatGPT, ha portato sia RLHF che PPO a diventare molto popolari.
In questa serie stiamo attualmente apprendendo i fondamenti dell’apprendimento per rinforzo (RL) con l’obiettivo di comprendere i meccanismi dell’allineamento del modello linguistico. Più specificamente, vogliamo sapere esattamente come apprendimento per rinforzo dal feedback umano (RLHF) lavori. Dato che molti professionisti dell’intelligenza artificiale tendono ad evitare l’RLHF perché hanno più familiarità con l’apprendimento supervisionato, una comprensione approfondita dell’RLHF aggiungerà un nuovo strumento alla cintura di ogni professionista. Inoltre, la ricerca ha dimostrato che RLHF è un aspetto fondamentale del processo di allineamento (8) — il semplice utilizzo della regolazione fine supervisionata (SFT) non è sufficiente; vedi sotto.
Fonte: towardsdatascience.com