I leader aziendali alle prese con i costi elevati dell’implementazione di modelli di intelligenza artificiale potrebbero trovare una tregua grazie a una nuova progettazione dell’architettura.
Sebbene le capacità dell’intelligenza artificiale generativa siano attraenti, le sue immense richieste computazionali sia per la formazione che per l’inferenza si traducono in spese proibitive e crescenti preoccupazioni ambientali. Al centro di questa inefficienza c’è il “collo di bottiglia fondamentale” dei modelli, ovvero un processo autoregressivo che genera testo in sequenza, token per token.
Per le aziende che elaborano vasti flussi di dati, da Reti IoT per i mercati finanziari, questa limitazione rende la generazione di analisi di lungo periodo lenta ed economicamente impegnativa. Tuttavia, un nuovo documento di ricerca di Tencent AI E Università Tsinghua propone un’alternativa.
Un nuovo approccio all’efficienza dell’IA
La ricerca introduce i Modelli Linguistici Autoregressivi Continui (CALM). Questo metodo riprogetta il processo di generazione per prevedere un vettore continuo anziché un token discreto.
Un codificatore automatico ad alta fedeltà “comprime(e) un pezzo di K token in un singolo vettore continuo”, che contiene una larghezza di banda semantica molto più elevata.
Invece di elaborare qualcosa come “il”, “gatto”, “seduto” in tre passaggi, il modello li comprime in uno solo. Questo progetto “riduce direttamente il numero di passaggi generativi”, attaccando il carico computazionale.
I risultati sperimentali dimostrano un migliore compromesso tra calcolo e prestazioni. Un modello di intelligenza artificiale CALM che raggruppa quattro token ha fornito prestazioni “paragonabili a linee di base discrete e forti, ma a un costo computazionale significativamente inferiore” per un’impresa.
Un modello CALM, ad esempio, richiedeva il 44% in meno di FLOP di addestramento e il 34% in meno di FLOP di inferenza rispetto a un Transformer di base con capacità simili. Ciò indica un risparmio sia sulla spesa di capitale iniziale della formazione che sulle spese operative ricorrenti dell’inferenza.
Ricostruire il toolkit per il dominio continuo
Il passaggio da un vocabolario finito e discreto a uno spazio vettoriale infinito e continuo rompe il kit di strumenti LLM standard. I ricercatori hanno dovuto sviluppare un “quadro completo e privo di verosimiglianza” per rendere praticabile il nuovo modello.
Per l’addestramento, il modello non può utilizzare un livello softmax standard o una stima di massima verosimiglianza. Per risolvere questo problema, il team ha utilizzato un obiettivo “privo di probabilità” con un trasformatore di energia, che premia il modello per previsioni accurate senza calcolare probabilità esplicite.
Questo nuovo metodo di formazione richiedeva anche una nuova metrica di valutazione. I benchmark standard come Perplexity non sono applicabili poiché si basano sulle stesse probabilità che il modello non calcola più.
Il team ha proposto BrierLM, una nuova metrica basata sul punteggio Brier che può essere stimato esclusivamente da campioni di modelli. La validazione ha confermato BrierLM come un’alternativa affidabile, mostrando una “correlazione del grado di Spearman di -0,991” con i tradizionali parametri di perdita.
Infine, il framework ripristina la generazione controllata, una funzionalità chiave per l’uso aziendale. Il campionamento della temperatura standard è impossibile senza una distribuzione di probabilità. Il documento introduce un nuovo “algoritmo di campionamento privo di probabilità”, incluso un metodo pratico di approssimazione batch, per gestire il compromesso tra accuratezza dell’output e diversità.
Ridurre i costi dell’IA aziendale
Questa ricerca offre uno sguardo su un futuro in cui l’intelligenza artificiale generativa non è definita esclusivamente da un numero sempre maggiore di parametri, ma dall’efficienza dell’architettura.
L’attuale percorso di modelli di scalabilità si scontra con un muro di rendimenti decrescenti e costi in aumento. Il framework CALM stabilisce un “nuovo asse di progettazione per il ridimensionamento LLM: aumentare la larghezza di banda semantica di ogni fase generativa”.
Sebbene si tratti di un quadro di ricerca e non di un prodotto standardizzato, indica un percorso potente e scalabile verso modelli linguistici ultra efficienti. Nel valutare le roadmap dei fornitori, i leader tecnologici dovrebbero guardare oltre le dimensioni del modello e iniziare a interrogarsi sull’efficienza dell’architettura.
La capacità di ridurre i FLOP per token generato diventerà un vantaggio competitivo determinante, consentendo di implementare l’intelligenza artificiale in modo più economico e sostenibile in tutta l’azienda per ridurre i costi, dal data center alle applicazioni edge ad alto contenuto di dati.
Vedi anche: Benchmark IA errati mettono a rischio i budget aziendali

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici tra cui Fiera della sicurezza informaticaclic Qui per ulteriori informazioni
AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.
Fonte: www.artificialintelligence-news.com
