Nel Reinforcement Learning, la Proximal Policy Optimization (PPO) è spesso citata come esempio di approccio politico, rispetto al DQN (un approccio basato sul valore) e alla grande famiglia di metodi attore-critici che include TD3 e SAC.
Mi sono ricordato che qualche tempo fa, quando lo stavo imparando per la prima volta, ero rimasto poco convinto. Molti insegnanti adottano una sorta di approccio con la mano agitata. Io non ci credo e non dovresti farlo neanche tu.
In questo articolo cercherò di spiegare come funziona il PPO, supportando i calcoli sia con l’intuizione che con il codice. Puoi provare diversi scenari e vedere di persona che funziona non solo in linea di principio ma anche nella pratica, e che non è necessario scegliere.
PPO e gli altri modelli SOTA possono essere implementati in pochi minuti utilizzando stable-baselines3 (sb3). Chiunque segua la documentazione può farlo funzionare, senza conoscere il modello sottostante.
Tuttavia, che tu sia un professionista o un teorico, i fondamenti contano. Se tratti semplicemente PPO (o qualsiasi altro modello) come una scatola nera, come puoi aspettarti che i tuoi utenti abbiano fiducia in ciò che offri?
Farò una guida dettagliata al codice alla fine di questo mese, scrivendo un wrapper tale che qualsiasi ambiente, sia quello di Gymnasium che il tuo, funzioni con qualsiasi modello sb3, indipendentemente dal fatto che lo spazio sia ‘Discreto‘ O ‘Scatola‘. (Il mese scorso ho mostrato come possono essere Monte Carlo, SARSA e Q-learning derivato da TD(λ)il tutto con un unico set di codici.)
Per domani basta, siamo qui, adesso!
Il gradiente politico Vanilla è il caso più elementare dei metodi basati sulle politiche, in cui la politica viene appresa e aggiornata direttamente, piuttosto che essere derivata da una qualche funzione di valore. Lo svantaggio è che soffre di un’elevata varianza negli aggiornamenti politici, il che è problematico per la convergenza, soprattutto in ambienti con ricompense scarse.
Matematica del TRPO
TRPO (Trust Region Policy Optimization) garantisce che la nuova politica (dove “nuova” si riferisce dopo un aggiornamento) non si discosti troppo dalla vecchia politica. Ciò avviene affermando un…
Fonte: towardsdatascience.com