L’intelligenza artificiale agentica rappresenta un’evoluzione distinta dai chatbot stateless verso flussi di lavoro complessi e la sua scalabilità richiede una nuova architettura di memoria.
Poiché i modelli di base raggiungono trilioni di parametri e le finestre di contesto raggiungono milioni di token, il costo computazionale per ricordare la storia sta aumentando più rapidamente della capacità di elaborarla.
Le organizzazioni che implementano questi sistemi si trovano ora ad affrontare un collo di bottiglia in cui l’enorme volume di “memoria a lungo termine” (tecnicamente nota come cache Key-Value (KV)) travolge le architetture hardware esistenti.
L’infrastruttura attuale impone una scelta binaria: archiviare il contesto di inferenza in una memoria GPU (HBM) scarsa e con larghezza di banda elevata o relegarlo in uno storage lento e generico. Il primo ha costi proibitivi per contesti di grandi dimensioni; quest’ultimo crea una latenza che rende impraticabili le interazioni degli agenti in tempo reale.
Per affrontare questa crescente disparità che frena il ridimensionamento dell’intelligenza artificiale con agenti, NVIDIA ha introdotto la piattaforma Inference Context Memory Storage (ICMS) all’interno della sua architettura Rubin, proponendo un nuovo livello di storage progettato specificamente per gestire la natura effimera e ad alta velocità della memoria AI.
“L’intelligenza artificiale sta rivoluzionando l’intero stack informatico e ora anche lo storage”, ha affermato Huang. “L’intelligenza artificiale non riguarda più chatbot one-shot ma collaboratori intelligenti che comprendono il mondo fisico, ragionano su orizzonti a lungo termine, rimangono ancorati ai fatti, utilizzano strumenti per svolgere un lavoro reale e conservano la memoria sia a breve che a lungo termine”.
La sfida operativa risiede nel comportamento specifico dei modelli basati su trasformatori. Per evitare di ricalcolare l’intera cronologia delle conversazioni per ogni nuova parola generata, i modelli memorizzano gli stati precedenti nella cache KV. Nei flussi di lavoro con agenti, questa cache agisce come memoria persistente tra strumenti e sessioni, crescendo linearmente con la lunghezza della sequenza.
Ciò crea una classe di dati distinta. A differenza dei record finanziari o dei registri dei clienti, la cache KV è costituita da dati derivati; è essenziale per prestazioni immediate ma non richiede le pesanti garanzie di durabilità dei file system aziendali. Gli stack di storage generici, eseguiti su CPU standard, consumano energia nella gestione e nella replica dei metadati che i carichi di lavoro degli agenti non richiedono.
L’attuale gerarchia, che va dalla GPU HBM (G1) allo storage condiviso (G4), sta diventando inefficiente:

Man mano che il contesto si sposta dalla GPU (G1) alla RAM di sistema (G2) e infine allo storage condiviso (G4), l’efficienza crolla. Lo spostamento del contesto attivo al livello G4 introduce una latenza di millisecondi e aumenta il costo energetico per token, lasciando inattive le GPU costose mentre attendono i dati.
Per l’azienda, ciò si manifesta come un costo totale di proprietà (TCO) eccessivo, in cui l’energia viene sprecata in spese generali dell’infrastruttura piuttosto che in ragionamenti attivi.
Un nuovo livello di memoria per la fabbrica AI
La risposta del settore prevede l’inserimento di un livello appositamente creato in questa gerarchia. La piattaforma ICMS stabilisce un livello “G3.5”, un livello flash collegato a Ethernet progettato esplicitamente per l’inferenza su scala gigante.
Questo approccio integra lo storage direttamente nel pod di calcolo. Utilizzando il processore dati NVIDIA BlueField-4, la piattaforma scarica la gestione di questi dati di contesto dalla CPU host. Il sistema fornisce petabyte di capacità condivisa per pod, aumentando la scalabilità dell’intelligenza artificiale degli agenti consentendo agli agenti di conservare enormi quantità di cronologia senza occupare costosi HBM.
Il vantaggio operativo è quantificabile in termini di produttività ed energia. Mantenendo il contesto rilevante in questo livello intermedio – che è più veloce dello storage standard, ma più economico di quello HBM – il sistema può “preinstallare” la memoria sulla GPU prima che sia necessaria. Ciò riduce il tempo di inattività del decodificatore GPU, consentendo token al secondo (TPS) fino a 5 volte più elevati per carichi di lavoro a lungo contesto.
Dal punto di vista energetico, le implicazioni sono ugualmente misurabili. Poiché l’architettura elimina il sovraccarico dei protocolli di storage generici, offre un’efficienza energetica 5 volte migliore rispetto ai metodi tradizionali.
Integrazione del piano dati
L’implementazione di questa architettura richiede un cambiamento nel modo in cui i team IT vedono la rete di storage. La piattaforma ICMS si affida a NVIDIA Spectrum-X Ethernet per fornire la connettività a larghezza di banda elevata e basso jitter necessaria per trattare lo storage flash quasi come se fosse memoria locale.
Per i team dell’infrastruttura aziendale, il punto di integrazione è il livello di orchestrazione. Framework come NVIDIA Dynamo e Inference Transfer Library (NIXL) gestiscono lo spostamento dei blocchi KV tra i livelli.
Questi strumenti si coordinano con il livello di archiviazione per garantire che il contesto corretto venga caricato nella memoria della GPU (G1) o nella memoria host (G2) esattamente quando il modello di intelligenza artificiale lo richiede. Il framework NVIDIA DOCA supporta ulteriormente tutto ciò fornendo un livello di comunicazione KV che tratta la cache di contesto come una risorsa di prima classe.
I principali fornitori di storage si stanno già allineando a questa architettura. Aziende tra cui AIC, Cloudian, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage, Supermicro, VAST Data e WEKA stanno costruendo piattaforme con BlueField-4. Si prevede che queste soluzioni saranno disponibili nella seconda metà di quest’anno.
Ridefinire l’infrastruttura per scalare l’intelligenza artificiale degli agenti
L’adozione di un livello di memoria di contesto dedicato influisce sulla pianificazione della capacità e sulla progettazione del data center.
- Riclassificazione dei dati: I CIO devono riconoscere la cache KV come un tipo di dati univoco. Si tratta di dati “effimeri ma sensibili alla latenza”, distinti dai dati di conformità “durevoli e freddi”. Il livello G3.5 gestisce il primo, consentendo allo storage G4 durevole di concentrarsi su log e artefatti a lungo termine.
- Maturità dell’orchestrazione: Il successo dipende da un software in grado di posizionare in modo intelligente i carichi di lavoro. Il sistema utilizza l’orchestrazione basata sulla topologia (tramite NVIDIA Grove) per posizionare i lavori vicino al contesto memorizzato nella cache, riducendo al minimo lo spostamento dei dati attraverso la struttura.
- Densità di potenza: Integrando una maggiore capacità utilizzabile nello stesso ingombro del rack, le organizzazioni possono prolungare la vita delle strutture esistenti. Tuttavia, ciò aumenta la densità di elaborazione per metro quadrato, richiedendo un’adeguata pianificazione del raffreddamento e della distribuzione dell’energia.
La transizione all’intelligenza artificiale comporta una riconfigurazione fisica del data center. Il modello prevalente di separare completamente il calcolo dall’archiviazione lenta e persistente è incompatibile con le esigenze di recupero in tempo reale degli agenti con memorie fotografiche.
Introducendo un livello di contesto specializzato, le aziende possono disaccoppiare la crescita della memoria del modello dal costo della GPU HBM. Questa architettura per l’intelligenza artificiale degli agenti consente a più agenti di condividere un enorme pool di memoria a basso consumo per ridurre i costi di gestione di query complesse e aumenta la scalabilità consentendo il ragionamento a throughput elevato.
Mentre le organizzazioni pianificano il prossimo ciclo di investimenti infrastrutturali, valutare l’efficienza della gerarchia di memoria sarà vitale quanto selezionare la GPU stessa.
Vedi anche: Le guerre dei chip IA del 2025: cosa hanno imparato i leader aziendali sulla realtà della supply chain

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici. Clic Qui per ulteriori informazioni
AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.
Fonte: www.artificialintelligence-news.com
