Vettorializza e parallelizza ambienti RL con JAX: Q-learning alla velocità della luce⚡ | di Ryan Pegoud | Ottobre 2023 | Intelligenza-Artificiale

Indice contenuti

JAX lo è ancora un altro Framework Python Deep Learning sviluppato da Google e ampiamente utilizzato da aziende come DeepMind.

“JAX lo è Autograd (differenziazione automatica) e XL (Accelerated Linear Algebra, un compilatore TensorFlow), riuniti per il calcolo numerico ad alte prestazioni. — Documentazione ufficiale

A differenza di ciò a cui è abituata la maggior parte degli sviluppatori Python, JAX non abbraccia l’ programmazione orientata agli oggetti (OOP), ma piuttosto programmazione funzionale (FP)(1).

In parole povere, si basa su funzioni pure (deterministico E senza effetti collaterali) E strutture dati immutabili (invece di modificare i dati in atto, nuove strutture dati Sono creato con le modifiche desiderate) come elementi costitutivi primari. Di conseguenza, FP incoraggia un approccio più funzionale e matematico alla programmazione, rendendolo adatto per attività come il calcolo numerico e l’apprendimento automatico.

Illustriamo le differenze tra questi due paradigmi esaminando lo pseudocodice per una funzione Q-update:

IL orientato agli oggetti l’approccio si basa su a istanza di classe contenente vari variabili di stato (come i valori Q). La funzione update è definita come un metodo di classe that aggiorna il stato interno dell’istanza.
IL programmazione funzionale l’approccio si basa su a pura funzione. In effetti, questo aggiornamento Q lo è deterministico poiché i valori Q vengono passati come argomento. Pertanto, qualsiasi chiamata a questa funzione con il file stessi input risulterà nel stesse uscite mentre gli output di un metodo di classe possono dipendere dallo stato interno dell’istanza. Anche, strutture dati come lo sono gli array definito E modificata nel portata globale.

Implementazione di un aggiornamento Q in **Programmazione orientata agli oggetti** E **Programmazione Funzionale** (fatto dall’autore)

In quanto tale, JAX offre una varietà di decoratori di funzioni che sono particolarmente utili nel contesto di RL:

vmap (mappa vettorizzata): Permette di applicare una funzione che agisce su un singolo campione su a lotto. Ad esempio, se env.passo() è una funzione che esegue un passo in un singolo ambiente, vmap(env.step)() è una funzione che esegue un passaggio ambienti multipli. In altre parole, vmap aggiunge un file dimensione del lotto ad una funzione.

Illustrazione di a **fare un passo** funzione vettorizzata utilizzando **vmap** (fatto dall’autore)

JEsso (compilazione just-in-time): consente a JAX di eseguire un “Compilazione Just In Time di una funzione JAX Python” realizzandolo Compatibile con XLA. In sostanza, l’uso di jit ci consente di farlo compilare funzioni e fornisce miglioramenti significativi della velocità (in cambio di qualche sovraccarico aggiuntivo durante la prima compilazione della funzione).
pmap (mappa parallela): Analogamente a vmap, pmap consente una facile parallelizzazione. Tuttavia, invece di aggiungere una dimensione batch a una funzione, replica la funzione e la esegue diversi dispositivi XLA. Nota: quando si applica pmap, viene applicato anche jit automaticamente.

Illustrazione di a **fare un passo** funzione parallelizzata utilizzando **pmap** (fatto dall’autore)

Ora che abbiamo gettato le basi di JAX, vedremo come ottenere enormi accelerazioni vettorizzando gli ambienti.

Innanzitutto, cos’è un ambiente vettorizzato e quali problemi risolve la vettorizzazione?

Nella maggior parte dei casi, gli esperimenti RL lo sono rallentato di Trasferimenti dati CPU-GPU. Algoritmi RL di Deep Learning come Ottimizzazione della politica prossimale (PPO) utilizzano le reti neurali per approssimare la politica.

Come sempre nel Deep Learning, le reti neurali utilizzano GPU A formazione E inferenza tempo. Tuttavia, nella maggior parte dei casi, ambienti correre su processore (anche nel caso di più ambienti utilizzati in parallelo).

Ciò significa che il consueto ciclo RL di selezione delle azioni tramite la politica (reti neurali) e di ricezione di osservazioni e ricompense dall’ambiente richiede continui avanti e indietro tra la GPU e la CPU, che danneggia le prestazioni.

Inoltre, utilizzando framework come PyTorch senza “jitting” potrebbe causare un sovraccarico, poiché la GPU potrebbe dover attendere che Python invii osservazioni e ricompense dalla CPU.