Ancora una volta andiamo al casinò, e questa volta si trova nella soleggiata Monte Carlo, resa famosa dalla sua apparizione nel film classico Madagascar 3: il più ricercato d’Europa (anche se c’è una piccola possibilità che fosse già famoso).
Nella nostra ultima visita a un casinò abbiamo esaminato bandito multi-armato e lo usò come un modo per visualizzare il problema di come scegliere l’azione migliore di fronte a molte azioni possibili.
In termini di Insegnamento rafforzativo si può pensare che il problema dei banditi rappresenti un singolo stato e le azioni disponibili all’interno di quello stato. Monte Carlo I metodi estendono questa idea per coprire stati multipli e interrelati.
Inoltre, nei problemi precedenti che abbiamo esaminato, ci è sempre stato fornito un modello completo dell’ambiente. Questo modello definisce sia le probabilità di transizione, che descrivono le possibilità di passare da uno stato a quello successivo, sia la ricompensa ricevuta per aver effettuato questa transizione.
In Monte Carlo metodi, non è così. Non viene fornito alcun modello e l’agente deve invece scoprire le proprietà dell’ambiente attraverso l’esplorazione, raccogliendo informazioni mentre si sposta da uno stato a quello successivo. In altre parole, I metodi Monte Carlo imparano dall’esperienza.
Gli esempi in questo articolo utilizzano il metodo custom Ambiente palestra Baby Robot e tutto il codice correlato a questo articolo può essere trovato su Github.
Inoltre, è possibile trovare una versione interattiva di questo articolo in taccuino form, dove puoi effettivamente eseguire tutti i frammenti di codice descritti di seguito.
Tutti gli articoli precedenti di questa serie possono essere trovati qui: La guida di un baby robot all’apprendimento per rinforzo.
E, per un breve riepilogo della teoria e della terminologia utilizzata in questo articolo, dai un’occhiata STate Valori e Valutazione delle Politiche in 5 minuti.
Nel problema della previsione vogliamo scoprire quanto è bello trovarsi in un particolare stato dell’ambiente. Questo “bontà” è rappresentato dallo Stato…