L'infrastruttura NVIDIA e Google riducono i costi di inferenza dell'IA | Intelligenza-Artificiale

Indice contenuti

Alla conferenza Google Cloud Next, Google E NVIDIA hanno delineato la loro roadmap hardware progettata per affrontare il costo dell’inferenza dell’intelligenza artificiale su larga scala.

Le aziende hanno descritto in dettaglio le nuove istanze bare metal A5X, che funzionano su sistemi rack-scale NVIDIA Vera Rubin NVL72. Attraverso la coprogettazione hardware e software, questa architettura mira a fornire un costo di inferenza per token fino a dieci volte inferiore rispetto alle generazioni precedenti, ottenendo allo stesso tempo un throughput di token per megawatt dieci volte superiore.

La connessione di migliaia di processori richiede un’enorme larghezza di banda per evitare ritardi nell’elaborazione. Le istanze A5X affrontano questa sfida hardware abbinando i SuperNIC NVIDIA ConnectX-9 alla tecnologia di rete Google Virgo.

Questa configurazione è scalabile fino a 80.000 GPU NVIDIA Rubin all’interno di un cluster a sito singolo e fino a 960.000 GPU in un’implementazione multisito. Operare su questa scala richiede una sofisticata gestione del carico di lavoro, poiché il routing dei dati su quasi un milione di processori paralleli richiede una sincronizzazione esatta per evitare tempi di elaborazione inattivi.

Mark Lohmeyer, VP e GM di AI and Computing Infrastructure presso Google Cloud, ha dichiarato: “Noi di Google Cloud crediamo che il prossimo decennio dell’intelligenza artificiale sarà plasmato dalla capacità dei clienti di eseguire i carichi di lavoro più impegnativi su uno stack infrastrutturale realmente integrato e ottimizzato per l’intelligenza artificiale.

“Combinando l’infrastruttura scalabile di Google Cloud e i servizi di intelligenza artificiale gestiti con le piattaforme, i sistemi e i software leader del settore di NVIDIA, offriamo ai clienti la flessibilità di addestrare, mettere a punto e servire qualsiasi cosa, dai modelli aperti e di frontiera ai modelli agenti e IA fisica carichi di lavoro, ottimizzando prestazioni, costi e sostenibilità.”

Governance dei dati sovrani e requisiti di sicurezza del cloud

Al di là delle capacità di elaborazione grezza, la governance dei dati rimane un problema primario per le implementazioni aziendali. Settori altamente regolamentati, tra cui quello finanziario e sanitario, spesso bloccano le iniziative di machine learning a causa dei requisiti di sovranità dei dati e dei rischi derivanti dall’esposizione di informazioni proprietarie.

Per soddisfare questi requisiti di conformità, i modelli Google Gemini eseguiti su GPU NVIDIA Blackwell e Blackwell Ultra stanno entrando in anteprima su Google Distributed Cloud. Questo metodo di distribuzione consente alle organizzazioni di conservare i modelli di frontiera interamente all’interno dei propri ambienti controllati, insieme agli archivi dati più sensibili.

L’architettura incorpora NVIDIA Confidential Computing. Questo protocollo di sicurezza a livello hardware garantisce che i modelli di training operino all’interno di un ambiente protetto in cui i prompt e i dati di ottimizzazione rimangono crittografati. La crittografia impedisce a soggetti non autorizzati, compresi gli stessi gestori dell’infrastruttura cloud, di visualizzare o modificare i dati sottostanti.

Per gli ambienti cloud pubblici multi-tenant, un’anteprima delle VM Confidential G4 dotate di GPU NVIDIA RTX PRO 6000 Blackwell introduce queste stesse protezioni crittografiche, offrendo alle industrie regolamentate l’accesso a hardware ad alte prestazioni senza violare gli standard sulla privacy dei dati. Questa versione rappresenta la prima offerta di computing riservato basato su cloud per le GPU NVIDIA Blackwell.

Overhead operativo nella formazione con intelligenza artificiale degli agenti

La creazione di sistemi ad agenti in più fasi richiede la connessione di modelli linguistici di grandi dimensioni a complesse interfacce di programmazione delle applicazioni, il mantenimento di una sincronizzazione continua dei database vettoriali e la mitigazione attiva delle allucinazioni algoritmiche durante l’esecuzione.

Per semplificare questi pesanti requisiti di ingegneria, NVIDIA Nemotron 3 Super è ora disponibile sulla Gemini Enterprise Agent Platform. La piattaforma fornisce agli sviluppatori strumenti per personalizzare e implementare modelli di ragionamento e multimodali appositamente progettati per compiti di agenti. La più ampia piattaforma NVIDIA su Google Cloud è ottimizzata per vari modelli, comprese le famiglie Gemini e Gemma di Google, offrendo agli sviluppatori gli strumenti per costruire sistemi che ragionano, pianificano e agiscono.

L’addestramento di questi modelli su larga scala introduce pesanti spese operative, in particolare quando si gestiscono il dimensionamento dei cluster e i guasti hardware durante lunghi cicli di apprendimento di rinforzo.

Google Cloud e NVIDIA hanno introdotto i Managed Training Clusters sulla Gemini Enterprise Agent Platform, che include un’API di apprendimento per rinforzo gestita creata con NVIDIA NeMo RL. Questo sistema automatizza il dimensionamento dei cluster, il ripristino dagli errori e l’esecuzione dei lavori, consentendo ai team di data science di concentrarsi sulla qualità del modello piuttosto che sulla gestione dell’infrastruttura di basso livello.

CrowdStrike utilizza attivamente le librerie aperte NVIDIA NeMo, tra cui NeMo Data Designer e NeMo Megatron Bridge, per generare dati sintetici e perfezionare modelli per applicazioni di sicurezza informatica specifiche del dominio. Il funzionamento di questi modelli su cluster di formazione gestiti con GPU Blackwell accelera le capacità automatizzate di rilevamento e risposta alle minacce.

Integrazione dell’architettura legacy e simulazioni fisiche

L’integrazione dell’apprendimento automatico nell’industria pesante e nella produzione presenta una diversa classe di sfide ingegneristiche. Collegare i modelli digitali agli stabilimenti fisici richiede simulazioni fisiche esatte, un’enorme potenza di calcolo e la standardizzazione dei formati di dati legacy. L’infrastruttura AI e le librerie AI fisiche di NVIDIA sono ora disponibili su Google Cloud, fornendo alle organizzazioni le basi per simulare e automatizzare i flussi di lavoro di produzione nel mondo reale.

Principali fornitori di software industriale – come Cadenza E Siemens – hanno reso disponibili le loro soluzioni su Google Cloud, accelerate dall’infrastruttura NVIDIA. Questi strumenti alimentano la progettazione e la produzione di macchinari pesanti, piattaforme aerospaziali e veicoli autonomi.

Le aziende manifatturiere spesso utilizzano sistemi di gestione del ciclo di vita del prodotto vecchi di decenni, rendendo difficile la traduzione dei dati geometrici e fisici. Utilizzando le librerie NVIDIA Omniverse e il framework open source NVIDIA Isaac Sim tramite Google Cloud Marketplace, gli sviluppatori possono aggirare alcuni di questi problemi di traduzione per costruire gemelli digitali fisicamente accurati e addestrare pipeline di simulazione robotica prima dell’implementazione fisica.

L’implementazione dei microservizi NVIDIA NIM, come il modello Cosmos Reason 2, su Google Vertex AI e Google Kubernetes Engine consente ad agenti e robot basati sulla visione di interpretare ed esplorare l’ambiente fisico circostante. Insieme, queste piattaforme aiutano gli sviluppatori a passare direttamente dalla progettazione assistita da computer ai gemelli digitali industriali viventi.

Impatti sull’ecosistema del calcolo accelerato

Per tradurre queste specifiche hardware in rendimenti finanziari quantificabili è necessario verificare il modo in cui i primi utilizzatori utilizzano l’infrastruttura.

L’ampio portafoglio include opzioni che scalano da rack NVL72 completi fino a VM G4 frazionarie che offrono solo un ottavo di una GPU. Ciò consente ai clienti di fornire con precisione capacità di accelerazione per attività di ragionamento ed elaborazione dati con una combinazione di esperti.

Thinking Machines Lab adatta la sua API Tinker alle VM A4X Max per accelerare la formazione. OpenAI utilizza l’inferenza su larga scala sui sistemi NVIDIA GB300 e GB200 NVL72 su Google Cloud per gestire carichi di lavoro impegnativi, comprese le operazioni ChatGPT.

Snap ha trasferito le sue pipeline di dati a Spark con accelerazione GPU su Google Cloud per ridurre i costi estesi associati ai test A/B su larga scala. Nel settore farmaceutico, Schrödinger sfrutta il calcolo accelerato NVIDIA su Google Cloud per comprimere in poche ore le simulazioni di scoperta di farmaci che in precedenza richiedevano settimane.

L’ecosistema degli sviluppatori che scalano questi strumenti si è espanso rapidamente. Nel giro di un anno, oltre 90.000 sviluppatori si sono uniti alla community congiunta di sviluppatori NVIDIA e Google Cloud.

Startup come CodeRabbit e Factory applicano modelli basati su NVIDIA Nemotron su Google Cloud per eseguire revisioni del codice ed eseguire agenti di sviluppo software autonomi. Aible, Mantis AI, Photoroom e Baseten creano soluzioni di dati aziendali, intelligenza video e immagini generative utilizzando la piattaforma full-stack.

Insieme, NVIDIA e Google Cloud mirano a fornire una base informatica progettata per far avanzare agenti sperimentali e simulazioni nei sistemi di produzione che proteggono le flotte e ottimizzano le fabbriche nel mondo fisico.

Vedi anche: Invertire i costi della sicurezza aziendale con il rilevamento delle vulnerabilità dell’intelligenza artificiale

Banner per gli eventi AI & Big Data Expo di TechEx.

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici tra cui Fiera sulla sicurezza informatica e sul cloud. Clic Qui per ulteriori informazioni

AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.

Fonte: www.artificialintelligence-news.com