Mamba: SSM, teoria e implementazione in Keras e TensorFlow | di Vedant Jumle | Marzo 2024 | Intelligenza-Artificiale

Comprendere come funzionano SSM e Mamba e come iniziare a implementarli in Keras e TensorFlow.

Presentato il 1 dicembre 2023 su arXiv, il documento intitolato “Mamba: modellazione di sequenze temporali lineari con spazi di stati selettivi” ha proposto un approccio interessante alla modellazione di sequenze. Gli autori – Alberto G, I Tre Dao – introdotto “Mamba” che utilizzava “selettivo” modelli dello spazio degli stati (SSM) per ottenere risultati che competono con le prestazioni del modello Transformer, ormai onnipresente.

I trasformatori hanno visto una recente popolarità con l'ascesa di Large Language Models (LLM) come LLaMa-2, GPT-4, Claude, Gemini, ecc., ma soffre del problema della finestra di contesto. Il problema con i trasformatori risiede nel loro nucleo, il meccanismo di attenzione multipla.

Il problema principale con l'attenzione multi-testa nasce dal fatto che per la lunghezza della sequenza di input n, la complessità temporale e la complessità spaziale scalano di O(n²). Ciò limita la lunghezza della finestra di contesto di un LLM. Perché, per aumentarlo di 10 volte, dobbiamo ridimensionare i requisiti hardware (in particolare la VRAM della GPU) di 100 volte.

Mamba, invece, si avvicina O(n)!, cioè Linearmente.

Trama tratta dall'articolo Mamba che mette a confronto l'approccio FlashAttention e Mamba (indicato dalla scansione(nostra) nelle legende)(1)

Questo ridimensionamento lineare è ciò che ha portato i ricercatori a ipotizzare che Mamba potrebbe essere il futuro della modellazione di sequenze.

Il nucleo del modello Mamba deriva dal concetto di State Space Models. I modelli dello spazio degli stati, come Transformers e RNN, elaborano sequenze di informazioni, come testo, segnali audio, fotogrammi video, sequenze di DNA, ecc.

I modelli dello spazio degli stati nascono dall'idea di descrivere un sistema fisico come un insieme di input, output e variabili. Queste variabili sono: A, B, C, D. Il processo di SSM prevede il calcolo di un vettore di stato interno h

Fonte: towardsdatascience.com

Continue Reading

Previous post:
Comprensione dello strato Sparse Mixture of Experts (SMoE) in Mixtral | di Matthew Gunton | Marzo 2024 | Intelligenza-Artificiale
Next post:
Algebra lineare 5: Indipendenza lineare | di tenzin migmar (t9nz) | Marzo 2024 | Intelligenza-Artificiale

Lascia un commento Annulla risposta
Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *
Commento *
Nome *

Email *

Sito web

Salva il mio nome, email e sito web in questo browser per la prossima volta che commento.

Articoli Correlati

Ho conseguito una certificazione in AI. Ecco cosa mi ha insegnato sul prompt engineering. | Intelligenza-Artificiale

Ho conseguito una certificazione in AI. Ecco cosa mi ha insegnato sul prompt engineering. | Intelligenza-Artificiale

Giugno 22, 2024

Analisi esplorativa dei dati in 11 passaggi | di Loren Hinkson | Giugno 2024 | Intelligenza-Artificiale

Analisi esplorativa dei dati in 11 passaggi | di Loren Hinkson | Giugno 2024 | Intelligenza-Artificiale

Giugno 22, 2024

Cerca

Post recenti

Monitoraggio della conformità 24/7: il vantaggio di AI nella protezione dei dati | Intelligenza-Artificiale

Zuckerberg delinea la visione AI di Meta per “Soprintenze personale” | Intelligenza-Artificiale

Le basi di Alphaearth aiutano a mappare il nostro pianeta in dettaglio senza precedenti | Intelligenza-Artificiale

Lo strumento di codifica AI di Alibaba solleva problemi di sicurezza in Occidente | Intelligenza-Artificiale

Gli strumenti di creazione video AI Veo 3 di Google sono ora ampiamente disponibili | Intelligenza-Artificiale

Commenti recenti

Nessun commento da mostrare.

Categorie

AI Startups

AI Tools

Chatbots

Chatgpt

Machine Learning

Di tendenza

Monitoraggio della conformità 24/7: il vantaggio di AI nella protezione dei dati | Intelligenza-Artificiale 1

Monitoraggio della conformità 24/7: il vantaggio di AI nella protezione dei dati | Intelligenza-Artificiale

Luglio 31, 2025

Zuckerberg delinea la visione AI di Meta per “Soprintenze personale” | Intelligenza-Artificiale 2

Zuckerberg delinea la visione AI di Meta per “Soprintenze personale” | Intelligenza-Artificiale

Luglio 30, 2025

Le basi di Alphaearth aiutano a mappare il nostro pianeta in dettaglio senza precedenti | Intelligenza-Artificiale 3

Le basi di Alphaearth aiutano a mappare il nostro pianeta in dettaglio senza precedenti | Intelligenza-Artificiale

Luglio 30, 2025

Lo strumento di codifica AI di Alibaba solleva problemi di sicurezza in Occidente | Intelligenza-Artificiale 4

Lo strumento di codifica AI di Alibaba solleva problemi di sicurezza in Occidente | Intelligenza-Artificiale

Luglio 30, 2025

Gli strumenti di creazione video AI Veo 3 di Google sono ora ampiamente disponibili | Intelligenza-Artificiale 5

Gli strumenti di creazione video AI Veo 3 di Google sono ora ampiamente disponibili | Intelligenza-Artificiale

Luglio 29, 2025

Seguici

Facebook

Twitter

Linkedin

VK

Youtube

Instagram

Ultimi post

Monitoraggio della conformità 24/7: il vantaggio di AI nella protezione dei dati | Intelligenza-Artificiale
6 min read

Chatbots

Monitoraggio della conformità 24/7: il vantaggio di AI nella protezione dei dati | Intelligenza-Artificiale

Luglio 31, 2025

La conformità alla protezione dei dati si è evoluta da un esercizio di controllo...
Leggi tutto

Zuckerberg delinea la visione AI di Meta per “Soprintenze personale” | Intelligenza-Artificiale

Zuckerberg delinea la visione AI di Meta per “Soprintenze personale” | Intelligenza-Artificiale

Luglio 30, 2025

Le basi di Alphaearth aiutano a mappare il nostro pianeta in dettaglio senza precedenti | Intelligenza-Artificiale

Le basi di Alphaearth aiutano a mappare il nostro pianeta in dettaglio senza precedenti | Intelligenza-Artificiale

Luglio 30, 2025

Lo strumento di codifica AI di Alibaba solleva problemi di sicurezza in Occidente | Intelligenza-Artificiale

Lo strumento di codifica AI di Alibaba solleva problemi di sicurezza in Occidente | Intelligenza-Artificiale

Luglio 30, 2025