Mamba: SSM, teoria e implementazione in Keras e TensorFlow |  di Vedant Jumle |  Marzo 2024

 | Intelligenza-Artificiale

Comprendere come funzionano SSM e Mamba e come iniziare a implementarli in Keras e TensorFlow.

Sorgente: Generazione AI (SDXL)

Presentato il 1 dicembre 2023 su arXiv, il documento intitolato “Mamba: modellazione di sequenze temporali lineari con spazi di stati selettivi” ha proposto un approccio interessante alla modellazione di sequenze. Gli autori – Alberto G, I Tre Dao – introdotto “Mamba” che utilizzava “selettivo” modelli dello spazio degli stati (SSM) per ottenere risultati che competono con le prestazioni del modello Transformer, ormai onnipresente.

I trasformatori hanno visto una recente popolarità con l'ascesa di Large Language Models (LLM) come LLaMa-2, GPT-4, Claude, Gemini, ecc., ma soffre del problema della finestra di contesto. Il problema con i trasformatori risiede nel loro nucleo, il meccanismo di attenzione multipla.

Il problema principale con l'attenzione multi-testa nasce dal fatto che per la lunghezza della sequenza di input n, la complessità temporale e la complessità spaziale scalano di O(n²). Ciò limita la lunghezza della finestra di contesto di un LLM. Perché, per aumentarlo di 10 volte, dobbiamo ridimensionare i requisiti hardware (in particolare la VRAM della GPU) di 100 volte.

Mamba, invece, si avvicina O(n)!, cioè Linearmente.

Trama tratta dall'articolo Mamba che mette a confronto l'approccio FlashAttention e Mamba (indicato dalla scansione(nostra) nelle legende)(1)

Questo ridimensionamento lineare è ciò che ha portato i ricercatori a ipotizzare che Mamba potrebbe essere il futuro della modellazione di sequenze.

Il nucleo del modello Mamba deriva dal concetto di State Space Models. I modelli dello spazio degli stati, come Transformers e RNN, elaborano sequenze di informazioni, come testo, segnali audio, fotogrammi video, sequenze di DNA, ecc.

I modelli dello spazio degli stati nascono dall'idea di descrivere un sistema fisico come un insieme di input, output e variabili. Queste variabili sono: A, B, C, D. Il processo di SSM prevede il calcolo di un vettore di stato interno h

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *