La spesa per l’intelligenza artificiale nell’Asia del Pacifico continua ad aumentare, ma molte aziende faticano ancora a ottenere valore dai propri progetti di intelligenza artificiale. Gran parte di ciò dipende dall’infrastruttura che supporta l’intelligenza artificiale, poiché la maggior parte dei sistemi non è progettata per eseguire l’inferenza alla velocità o per la scalabilità richiesta dalle applicazioni reali. Studi di settore mostrano che molti progetti non raggiungono gli obiettivi di ROI anche dopo ingenti investimenti in strumenti GenAI a causa di questo problema.
Il divario mostra quanto l’infrastruttura AI influenzi le prestazioni, i costi e la capacità di scalare le implementazioni nel mondo reale nella regione.
Akamai sta cercando di affrontare questa sfida con Inference Cloud, realizzato con NVIDIA e alimentato dalle più recenti GPU Blackwell. L’idea è semplice: se la maggior parte delle applicazioni di intelligenza artificiale devono prendere decisioni in tempo reale, allora tali decisioni dovrebbero essere prese vicino agli utenti anziché in data center distanti. Questo cambiamento, sostiene Akamai, può aiutare le aziende a gestire i costi, ridurre i ritardi e supportare i servizi di intelligenza artificiale che dipendono da risposte in frazioni di secondo.
Jay Jenkins, CTO del Cloud Computing di Akamai, ha spiegato a Notizie sull’AI perché questo momento sta costringendo le aziende a ripensare il modo in cui implementano l’intelligenza artificiale e perché l’inferenza, e non la formazione, è diventata il vero collo di bottiglia.
Perché i progetti di intelligenza artificiale hanno difficoltà senza la giusta infrastruttura
Jenkins afferma che il divario tra sperimentazione e implementazione su vasta scala è molto più ampio di quanto molte organizzazioni si aspettino. “Molte iniziative di intelligenza artificiale non riescono a fornire il valore aziendale atteso perché le imprese spesso sottovalutano il divario tra sperimentazione e produzione”, afferma. Anche con un forte interesse per la GenAI, i grandi costi infrastrutturali, l’elevata latenza e la difficoltà di eseguire modelli su larga scala spesso bloccano il progresso.

La maggior parte delle aziende si affida ancora a cloud centralizzati e cluster GPU di grandi dimensioni. Ma con l’aumento dell’utilizzo, queste configurazioni diventano troppo costose, soprattutto nelle regioni lontane dalle principali zone nuvolose. Anche la latenza diventa un grosso problema quando i modelli devono eseguire più passaggi di inferenza su lunghe distanze. “L’intelligenza artificiale è potente quanto l’infrastruttura e l’architettura su cui viene eseguita”, afferma Jenkins, aggiungendo che la latenza spesso indebolisce l’esperienza dell’utente e il valore che l’azienda sperava di offrire. Indica inoltre le configurazioni multi-cloud, le regole complesse dei dati e le crescenti esigenze di conformità come ostacoli comuni che rallentano il passaggio dai progetti pilota alla produzione.
Perché l’inferenza ora richiede più attenzione che formazione
In tutta l’Asia del Pacifico, l’adozione dell’IA si sta spostando da piccoli progetti pilota a implementazioni reali in app e servizi. Jenkins osserva che, quando ciò accade, l’inferenza quotidiana, e non il ciclo di formazione occasionale, è ciò che consuma la maggior parte della potenza di calcolo. Con molte organizzazioni che implementano linguaggio, visione e modelli multimodali in più mercati, la domanda di inferenza veloce e affidabile sta aumentando più rapidamente del previsto. Questo è il motivo per cui l’inferenza è diventata il principale vincolo nella regione. I modelli ora devono funzionare in linguaggi, normative e ambienti di dati diversi, spesso in tempo reale. Ciò esercita un’enorme pressione sui sistemi centralizzati che non sono mai stati progettati per questo livello di reattività.
In che modo l’infrastruttura edge migliora le prestazioni e i costi dell’IA
Jenkins afferma che avvicinare l’inferenza agli utenti, ai dispositivi o agli agenti può rimodellare l’equazione dei costi. Ciò riduce la distanza che i dati devono percorrere e consente ai modelli di rispondere più rapidamente. Inoltre, evita il costo dell’instradamento di enormi volumi di dati tra i principali hub cloud.
I sistemi fisici di intelligenza artificiale – robot, macchine autonome o strumenti per città intelligenti – dipendono da decisioni prese in millisecondi. Quando l’inferenza viene eseguita a distanza, questi sistemi non funzionano come previsto.
Anche i risparmi derivanti da implementazioni più localizzate possono essere sostanziali. Jenkins afferma che l’analisi di Akamai mostra che le aziende in India e Vietnam vedono notevoli riduzioni dei costi di esecuzione dei modelli di generazione di immagini quando i carichi di lavoro sono posizionati all’edge, piuttosto che su cloud centralizzati. Un migliore utilizzo della GPU e tariffe di uscita più basse hanno giocato un ruolo importante in questi risparmi.
Dove l’intelligenza artificiale edge-based sta guadagnando terreno
La domanda iniziale di inferenza edge è più forte nei settori in cui anche piccoli ritardi possono influire sulle entrate, sulla sicurezza o sul coinvolgimento degli utenti. La vendita al dettaglio e l’e-commerce sono tra i primi ad adottarli perché gli acquirenti spesso abbandonano le esperienze lente. I consigli personalizzati, la ricerca e gli strumenti di acquisto multimodale funzionano meglio quando l’inferenza è locale e veloce.
La finanza è un’altra area in cui la latenza influisce direttamente sul valore. Jenkins afferma che carichi di lavoro come i controlli antifrode, l’approvazione dei pagamenti e il punteggio delle transazioni si basano su catene di decisioni basate sull’intelligenza artificiale che dovrebbero avvenire in millisecondi. Eseguire l’inferenza più vicino al luogo in cui vengono creati i dati aiuta le società finanziarie a muoversi più velocemente e a mantenere i dati all’interno dei confini normativi.
Perché le partnership tra cloud e GPU contano di più ora
Man mano che i carichi di lavoro dell’intelligenza artificiale crescono, le aziende hanno bisogno di un’infrastruttura in grado di tenere il passo. Jenkins afferma che ciò ha spinto i fornitori di servizi cloud e i produttori di GPU a una più stretta collaborazione. Il lavoro di Akamai con NVIDIA ne è un esempio, con GPU, DPU e software AI distribuiti in migliaia di edge location.
L’idea è quella di costruire una “rete di distribuzione dell’intelligenza artificiale” che diffonda l’inferenza su molti siti invece di concentrare tutto in poche regioni. Ciò aiuta con le prestazioni, ma supporta anche la conformità. Jenkins osserva che quasi la metà delle grandi organizzazioni dell’area APAC deve far fronte a regole diverse sui dati nei vari mercati, il che rende più importante l’elaborazione locale. Le partnership emergenti stanno ora dando forma alla prossima fase dell’infrastruttura AI nella regione, in particolare per i carichi di lavoro che dipendono da risposte a bassa latenza.
La sicurezza è integrata in questi sistemi fin dall’inizio, afferma Jenkins. I controlli Zero Trust, il routing basato sui dati e le protezioni contro frodi e bot stanno diventando parte standard degli stack tecnologici offerti.
L’infrastruttura necessaria per supportare l’intelligenza artificiale e l’automazione degli agenti
L’esecuzione di sistemi ad agenti, che prendono molte decisioni in sequenza, necessita di un’infrastruttura in grado di funzionare a velocità di millisecondi. Jenkins ritiene che la diversità della regione renda tutto ciò più difficile ma non impossibile. I paesi differiscono ampiamente in termini di connettività, regole e preparazione tecnica, quindi i carichi di lavoro dell’intelligenza artificiale devono essere sufficientemente flessibili da poter essere eseguiti dove ha più senso. Cita una ricerca che mostra che la maggior parte delle imprese nella regione utilizza già il cloud pubblico in produzione, ma molte prevedono di fare affidamento sui servizi edge entro il 2027. Questo cambiamento richiederà un’infrastruttura in grado di conservare i dati nel paese, instradare le attività al luogo adatto più vicino e continuare a funzionare quando le reti sono instabili.
Cosa devono prepararsi le aziende per il futuro
Man mano che l’inferenza si sposta all’edge, le aziende avranno bisogno di nuovi modi per gestire le operazioni. Jenkins afferma che le organizzazioni dovrebbero aspettarsi un ciclo di vita dell’intelligenza artificiale più distribuito, in cui i modelli vengono aggiornati su molti siti. Ciò richiede una migliore orchestrazione e una forte visibilità su prestazioni, costi ed errori nei sistemi core ed edge.
La governance dei dati diventa più complessa ma anche più gestibile quando l’elaborazione rimane locale. La metà delle grandi imprese della regione è già alle prese con le variazioni normative, quindi avvicinare l’inferenza al luogo in cui vengono generati i dati può essere d’aiuto.
Anche la sicurezza necessita di maggiore attenzione. Se da un lato diffondere l’inferenza ai confini può migliorare la resilienza, dall’altro significa anche che ogni sito deve essere protetto. Le aziende devono proteggere le API, le pipeline di dati e proteggersi da frodi o attacchi bot. Jenkins sottolinea che molti istituti finanziari si affidano già ai controlli di Akamai in queste aree.
(Foto di Igor Omilaev)
Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx e co-localizzato con altri importanti eventi tecnologici. Clic Qui per ulteriori informazioni
AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.
Fonte: www.artificialintelligence-news.com

