Comprendere la formulazione del problema e gli algoritmi di base per RL
Recenti ricerche sull’intelligenza artificiale hanno rivelato che l’apprendimento per rinforzo: più specificamente, apprendimento per rinforzo dal feedback umano (RLHF) – è una componente chiave della formazione di un modello linguistico di grandi dimensioni (LLM) all’avanguardia. Nonostante questo fatto, la maggior parte della ricerca open source sui modelli linguistici enfatizza fortemente le strategie di apprendimento supervisionato, come il fine tuning supervisionato (SFT). Questa mancanza di enfasi sull’apprendimento per rinforzo può essere attribuita a diversi fattori, tra cui la necessità di curare i dati sulle preferenze umane o la quantità di dati necessari per eseguire RLHF di alta qualità. Tuttavia, un fattore innegabile che probabilmente è alla base dello scetticismo nei confronti dell’apprendimento per rinforzo è il semplice fatto che non è così comunemente utilizzato rispetto all’apprendimento supervisionato. Di conseguenza, i professionisti dell’intelligenza artificiale (me compreso!) evitano l’apprendimento per rinforzo a causa di una semplice mancanza di comprensione – tendiamo a continuare a utilizzare gli approcci che conosciamo meglio.
“Molti di noi hanno espresso una preferenza per l’annotazione supervisionata, attratti dal suo segnale più denso… Tuttavia, l’apprendimento per rinforzo si è rivelato altamente efficace, soprattutto considerando la sua efficacia in termini di costi e tempo.” — da (8)
Questa serie. Nelle prossime panoramiche mireremo a eliminare questo problema costruendo una comprensione operativa dell’apprendimento per rinforzo da zero. Inizieremo con definizioni e approcci di base: trattati in questa panoramica — e procedere verso algoritmi moderni (ad esempio, PPO) utilizzati per ottimizzare i modelli linguistici con RLHF. Durante questo processo, esploreremo esempi di implementazione di queste idee, con l’obiettivo di demistificare e normalizzare l’uso dell’apprendimento per rinforzo nel dominio della modellazione del linguaggio. Come vedremo, queste idee sono facili da mettere in pratica se ci prendiamo il tempo per capire come funzionano!
Al livello più alto, l’apprendimento per rinforzo (RL) è solo un altro modo di addestrare un modello di machine learning. Nelle panoramiche precedenti, abbiamo visto una varietà di tecniche per l’allenamento…
Fonte: towardsdatascience.com