Una delicata introduzione all'apprendimento per rinforzo profondo in JAX | di Ryan Pegoud | Novembre 2023 | Intelligenza-Artificiale

Implementare la funzione di aggiornamento per DQN è leggermente più complesso, analizziamolo:

Prima il _loss_fn La funzione implementa l’errore quadrato descritto in precedenza per a singola esperienza.
Poi, _batch_loss_fn funge da involucro per _loss_fn e lo decora con vmapapplicando la funzione di perdita ad a lotto di esperienze. Restituiamo quindi l’errore medio per questo batch.
Finalmente, update agisce come strato finale della nostra funzione di perdita, calcolandola pendenza rispetto ai parametri di rete online, ai parametri di rete target e a una serie di esperienze. Usiamo quindi Optax (una libreria JAX comunemente utilizzata per l’ottimizzazione) per eseguire un passaggio di ottimizzazione e aggiornare i parametri online.