Metodi Monte Carlo. Un'introduzione al rinforzo… | di Steve Roberts | Agosto 2023 | Intelligenza-Artificiale

Un’introduzione all’apprendimento per rinforzo: parte 4

Ancora una volta andiamo al casinò, e questa volta si trova nella soleggiata Monte Carlo, resa famosa dalla sua apparizione nel film classico Madagascar 3: il più ricercato d’Europa (anche se c’è una piccola possibilità che fosse già famoso).

Nella nostra ultima visita a un casinò abbiamo esaminato bandito multi-armato e lo usò come un modo per visualizzare il problema di come scegliere l’azione migliore di fronte a molte azioni possibili.

In termini di Insegnamento rafforzativo si può pensare che il problema dei banditi rappresenti un singolo stato e le azioni disponibili all’interno di quello stato. Monte Carlo I metodi estendono questa idea per coprire stati multipli e interrelati.

Inoltre, nei problemi precedenti che abbiamo esaminato, ci è sempre stato fornito un modello completo dell’ambiente. Questo modello definisce sia le probabilità di transizione, che descrivono le possibilità di passare da uno stato a quello successivo, sia la ricompensa ricevuta per aver effettuato questa transizione.

In Monte Carlo metodi, non è così. Non viene fornito alcun modello e l’agente deve invece scoprire le proprietà dell’ambiente attraverso l’esplorazione, raccogliendo informazioni mentre si sposta da uno stato a quello successivo. In altre parole, I metodi Monte Carlo imparano dall’esperienza.

Gli esempi in questo articolo utilizzano il metodo custom Ambiente palestra Baby Robot e tutto il codice correlato a questo articolo può essere trovato su Github.

Inoltre, è possibile trovare una versione interattiva di questo articolo in taccuino form, dove puoi effettivamente eseguire tutti i frammenti di codice descritti di seguito.

Tutti gli articoli precedenti di questa serie possono essere trovati qui: La guida di un baby robot all’apprendimento per rinforzo.

E, per un breve riepilogo della teoria e della terminologia utilizzata in questo articolo, dai un’occhiata STate Valori e Valutazione delle Politiche in 5 minuti.

Nel problema della previsione vogliamo scoprire quanto è bello trovarsi in un particolare stato dell’ambiente. Questo “bontà” è rappresentato dallo Stato…