In conclusione, l’agente Q-learning è convergente in a strategia subottimale Come menzionato in precedenza. Inoltre, una parte dell’ambiente rimane inesplorato dalla funzione Q, che impedisce all’agente di trovare il nuovo percorso ottimale quando appare il portale viola dopo il centesimo episodio.
Queste limitazioni prestazionali possono essere attribuite al relativamente basso numero di passaggi di allenamento (400), limitando le possibilità di interazione con l’ambiente e l’esplorazione indotta dalla politica ε-greedy.
Pianificazioneuna componente essenziale di basato su modello I metodi di apprendimento per rinforzo sono particolarmente utili da migliorare efficienza del campione E stima dei valori dell’azione. Dyna-Q e Dyna-Q+ sono buoni esempi di algoritmi TD che incorporano fasi di pianificazione.
L’algoritmo Dyna-Q (Dynamic Q-learning) è una combinazione di RL basato su modello E Apprendimento del TD.
Gli algoritmi RL basati su modello si basano su a modello dell’ambiente incorporare la pianificazione come loro principale modalità di aggiornamento delle stime di valore. Al contrario, gli algoritmi senza modello si basano sull’apprendimento diretto.
“Un modello dell’ambiente è tutto ciò che un agente può utilizzare per prevedere come l’ambiente risponderà alle sue azioni” — Apprendimento per rinforzo: un’introduzione.
Nell’ambito di questo articolo, il modello può essere visto come un’approssimazione delle dinamiche di transizione p(s’, r|s, a). Qui, P restituisce a singola coppia di stato successivo e ricompensa data l’attuale coppia stato-azione.
Negli ambienti dove P È Stocasticodistinguiamo modelli distributivi e modelli campionari, il primo restituisce una distribuzione degli stati e delle azioni successivi mentre il secondo restituisce una singola coppia, campionata dalla distribuzione stimata.
I modelli sono particolarmente utili per simulare episodi, e quindi addestrare l’agente, sostituendo le interazioni del mondo reale con fasi di pianificazione, ovvero interazioni con l’ambiente simulato.
Gli agenti che implementano l’algoritmo Dyna-Q fanno parte della classe di agenti di pianificazioneagenti che combinare l’apprendimento per rinforzo diretto E apprendimento del modello. Usano le interazioni dirette con l’ambiente per aggiornare la loro funzione di valore (come nel Q-learning) e anche per apprendere un modello dell’ambiente. Dopo ogni interazione diretta, possono anche eseguire fasi di pianificazione per aggiornare la propria funzione di valore utilizzando interazioni simulate.
Un rapido esempio di scacchi
Immagina di giocare una bella partita a scacchi. Dopo aver giocato ogni mossa, la reazione del tuo avversario ti consente di valutare la situazione la qualità del tuo trasloco. Questo è simile a ricevere una ricompensa positiva o negativa, che ti consente di “aggiornare” la tua strategia. Se la tua mossa porta ad un errore, probabilmente non lo rifaresti, a condizione che la stessa configurazione del tabellone sia la stessa. Finora, questo è paragonabile a apprendimento per rinforzo diretto.
Ora aggiungiamo pianificazione alla miscela. Immagina che dopo ciascuna delle tue mosse, mentre l’avversario pensa, tu ripercorri mentalmente ciascuna delle tue mosse precedenti A rivalutarne la qualità. Potresti scoprire punti deboli che avevi trascurato a prima vista o scoprire che mosse specifiche erano migliori di quanto pensassi. Questi pensieri potrebbero anche consentirti di aggiornare la tua strategia. Questo è esattamente ciò di cui si occupa la pianificazione, aggiornare la funzione valore senza interagire con l’ambiente reale ma piuttosto un modello di detto ambiente.
Dyna-Q contiene quindi alcuni passaggi aggiuntivi rispetto al Q-learning:
Dopo ogni aggiornamento diretto dei valori Q, il modello memorizza la coppia stato-azione, la ricompensa e lo stato successivo osservati. Questo passaggio è chiamato training del modello.
- Dopo l’addestramento del modello, Dyna-Q si esibisce N fasi di pianificazione:
- Una coppia stato-azione casuale viene selezionata dal buffer del modello (ovvero questa coppia stato-azione è stata osservata durante le interazioni dirette)
- Il modello genera la ricompensa simulata e lo stato successivo
- La funzione valore viene aggiornata utilizzando le osservazioni simulate (s, a, r, s’)
Fonte: towardsdatascience.com