Una guida pratica all'apprendimento per rinforzo | del Dott. Robert Kübler | Novembre 2023 | Intelligenza-Artificiale

Muovi i primi passi nella scrittura di agenti IA vincenti

fotografato da Vincenzo Guth SU Unsplash

Nell’apprendimento automatico, i data scientist esplorano principalmente i territori dell’apprendimento supervisionato e non supervisionato. Tuttavia, esiste un sottocampo distinto e interessante: insegnamento rafforzativo!

Nell’apprendimento per rinforzo, proviamo a insegnare un cosiddetto agente come navigare nelle complessità di Giochiposizionandolo all’interno di un ambiente simulato in cui esplora strategie, riceve ricompense per le mosse riuscite e affronta sanzioni per passi falsi.

La tipica panoramica dell’armatura. Immagine dell’autore.

Un risultato importante del campo dell’apprendimento per rinforzo è AlphaGoun modello che ha battuto i campioni del mondo Andareun gioco più complesso degli scacchi.

Il bello dell’apprendimento per rinforzo è che non dobbiamo dirlo all’agente Come vincere. Dobbiamo solo dirgli cosa vuol dire vincere o perdere.

Negli scacchi, ad esempio, si tratta di dare scacco matto al re avversario, e questa è l’unica guida che forniamo. Nessuna istruzione esplicita sull’importanza delle regine o sull’insignificanza dei pedoni: l’agente deduce queste sfumature da solo.

E non è limitato a giochi tradizionali; praticamente qualsiasi cosa può essere trattata come un gioco. Che si tratti di un classico gioco da tavolo, di un videogioco o di uno scenario aziendale, come determinare l’annuncio più efficace per un cliente, è in gioco l’apprendimento per rinforzo. Nello scenario aziendale, l’agente potrebbe ottenere premi per gli acquisti riusciti dei clienti, premi minori per i clic sugli annunci e incorrere in sanzioni quando gli annunci vengono ignorati da un cliente. Diventa un gioco strategico per l’agente, ottimizzando i premi che, in un contesto aziendale, si traducono in ricavi.

In questo articolo non entrerò troppo nella teoria matematica dell’apprendimento per rinforzo. Voglio darti il intuizione e codice di funzionamento per iniziare. A tal fine utilizzerò la grande biblioteca palestra che fornisce alcuni ambienti di gioco accurati che i nostri agenti possono imparare a padroneggiare.

Fonte: towardsdatascience.com