Stablebaseline3 (sb3) è come un coltellino svizzero. È uno strumento di utilità multifunzione, che può essere utilizzato per molti scopi. E, proprio come un coltellino svizzero può salvarti la vita se sei bloccato in una giungla, sb3 può salvarti la vita in ufficio, quando hai scadenze apparentemente impossibili da rispettare.
Questa guida utilizza gymnasium=0.28.1 e stable-baselines=2.1.0. Se utilizzi versioni diverse, o magari fai riferimento anche ad altre vecchie guide, potresti non ottenere i risultati riportati di seguito. Ma non preoccuparti, qui viene fornita anche una guida all’installazione. Ti garantisco che puoi ottenere i risultati se segui le mie istruzioni.
Stablebaseline3 è facile da usare. È anche ben documentato e puoi seguire i tutorial da solo. Ma…
- Hai fatto riferimento a guide più vecchie (magari quelle che utilizzavano
gym
), solo per trovare errori sulla tua macchina? - Riesci a garantire sempre la compatibilità?
- E se volessi usarlo
gymnasium
l’ambiente e modificare forse le ricompense? - Sai come strutturare i tuoi compiti in modo tale che i modelli SOTA possano essere applicati in poche righe?
Questo è l’obiettivo di questo articolo! Dopo aver letto questa dimostrazione guidata, potrai…
- Risolvi ambienti classici con modelli sb3, visualizza i risultati e salva (o carica) il modello addestrato in poche righe di codice. (Sezione 3.1)
- Comprendere come verificare la compatibilità dello spazio di azione e dello spazio di osservazione. (Sezione 3.2)
- Impara come avvolgere
gymnasium
ambienti in modo che sia possibile utilizzare qualsiasi modello sb3, senza alcuna restrizionebox
Odiscrete
. (Sezione 4.1) - Impara come avvolgere
gymnasium
ambienti per la formazione della ricompensa. (Sezione 4.2) - Scopri come creare ambienti personalizzati per renderli compatibili con sb3, con modifiche minime al codice originale che potrebbe seguire una struttura diversa. (Sezione 5)
Crea un ambiente virtuale e configura le relative dipendenze. Mi rivolgo alla maggioranza: qui la guida è creata utilizzando Windows…
Fonte: towardsdatascience.com