Il modello di intelligenza artificiale che utilizza GPU AMD per l’addestramento raggiunge un traguardo importante

 | Intelligenza-Artificiale

Zyphra, AMD e IBM hanno trascorso un anno testando se le GPU e la piattaforma AMD possono supportare l’addestramento di modelli AI su larga scala e il risultato è ZAYA1.

In collaborazione, le tre società hanno formato ZAYA1 – descritto come il primo importante modello di base di miscela di esperti costruito interamente su GPU e reti AMD – che vedono come prova del fatto che il mercato non deve dipendere da NVIDIA per scalare l’intelligenza artificiale.

Il modello è stato addestrato su AMD Istinto MI300X chip, rete Pensando e software ROCm, tutti in esecuzione sull’infrastruttura IBM Cloud. Ciò che è degno di nota è quanto sia convenzionale la configurazione. Invece di hardware sperimentale o configurazioni oscure, Zyphra ha costruito il sistema in modo molto simile a qualsiasi cluster aziendale, ma senza i componenti NVIDIA.

Zyphra afferma che ZAYA1 si comporta alla pari, e in alcune aree addirittura davanti, a modelli aperti consolidati di ragionamento, matematica e codice. Per le aziende frustrate dai vincoli di fornitura o dall’aumento vertiginoso dei prezzi delle GPU, si tratta di qualcosa di raro: una seconda opzione che non richiede compromessi in termini di capacità.

Come Zyphra ha utilizzato le GPU AMD per ridurre i costi senza compromettere le prestazioni di training dell’IA

La maggior parte delle organizzazioni segue la stessa logica quando pianifica i budget per la formazione: la capacità di memoria, la velocità di comunicazione e i tempi di iterazione prevedibili contano più della velocità effettiva teorica.

I 192 GB di memoria a larghezza di banda elevata per GPU dell’MI300X offrono agli ingegneri un po’ di respiro, consentendo sessioni di training iniziali senza ricorrere immediatamente a un pesante parallelismo. Ciò tende a semplificare progetti che altrimenti sarebbero fragili e richiederebbero molto tempo per essere messi a punto.

Zyphra ha costruito ciascun nodo con otto GPU MI300X connesse tramite InfinityFabric e ha accoppiato ciascuna con la propria scheda di rete Pollara. Una rete separata gestisce le letture e il checkpoint dei set di dati. È un design semplice, ma sembra essere questo il punto; quanto più semplice è il cablaggio e il layout della rete, tanto minori saranno i costi di commutazione e tanto più semplice sarà mantenere costanti i tempi di iterazione.

ZAYA1: un modello IA che colpisce più del suo peso

La base ZAYA1 attiva 760 milioni di parametri su un totale di 8,3 miliardi ed è stata addestrata su 12 trilioni di token in tre fasi. L’architettura si basa sull’attenzione compressa, su un sistema di routing raffinato per indirizzare i token verso gli esperti giusti e su un ridimensionamento residuo più leggero per mantenere stabili gli strati più profondi.

Il modello utilizza un mix di Muoni e AdamW. Per rendere Muon efficiente sull’hardware AMD, Zyphra ha fuso i kernel e ridotto il traffico di memoria non necessario in modo che l’ottimizzatore non dominasse ogni iterazione. Le dimensioni dei batch sono state aumentate nel tempo, ma ciò dipende in larga misura dalla disponibilità di pipeline di archiviazione in grado di fornire token abbastanza rapidamente.

Tutto ciò porta a un modello di intelligenza artificiale addestrato su hardware AMD che compete con peer più grandi come Qwen3-4B, Gemma3-12B, Llama-3-8B e OLMoE. Un vantaggio della struttura MoE è che viene eseguito solo un frammento del modello alla volta, il che aiuta a gestire la memoria di inferenza e riduce i costi di servizio.

Una banca, ad esempio, potrebbe addestrare un modello specifico per il dominio per le indagini senza bisogno di un parallelismo contorto nella fase iniziale. Il margine di memoria dell’MI300X offre agli ingegneri spazio per l’iterazione, mentre l’attenzione compressa di ZAYA1 riduce i tempi di preriempimento durante la valutazione.

Far sì che ROCm si comporti con le GPU AMD

Zyphra non ha nascosto il fatto che spostare un flusso di lavoro maturo basato su NVIDIA su ROCm ha richiesto lavoro. Invece di trasferire i componenti alla cieca, il team ha dedicato del tempo a misurare il comportamento dell’hardware AMD e a rimodellare le dimensioni del modello, i modelli GEMM e le dimensioni dei microbatch per adattarli agli intervalli di elaborazione preferiti dell’MI300X.

InfinityFabric funziona al meglio quando tutte e otto le GPU in un nodo partecipano a collettivi e Pollara tende a raggiungere il picco di throughput con messaggi più grandi, quindi Zyphra ha dimensionato i buffer di fusione di conseguenza. L’addestramento a contesto lungo, da token da 4k fino a 32k, si basava sull’attenzione dell’anello per le sequenze frammentate e sull’attenzione dell’albero durante la decodifica per evitare colli di bottiglia.

Le considerazioni sull’archiviazione erano altrettanto pratiche. I modelli più piccoli martellano IOPS; quelli più grandi necessitano di una larghezza di banda sostenuta. Zyphra ha raggruppato frammenti di set di dati per ridurre le letture sparse e aumentare la cache delle pagine per nodo per accelerare il ripristino del checkpoint, che è vitale durante le lunghe esecuzioni in cui i riavvolgimenti sono inevitabili.

Mantenere i grappoli in piedi

I lavori di formazione che durano settimane raramente si comportano perfettamente. Il servizio Aegis di Zyphra monitora i log e le metriche di sistema, identifica guasti come anomalie della scheda NIC o segnali ECC e intraprende automaticamente azioni correttive semplici. Il team ha inoltre aumentato i timeout RCCL per evitare che brevi interruzioni della rete interrompano interi lavori.

Il checkpoint è distribuito su tutte le GPU anziché forzato attraverso un singolo chokepoint. Zyphra segnala salvataggi più che dieci volte più rapidi rispetto ad approcci ingenui, il che migliora direttamente i tempi di attività e riduce il carico di lavoro dell’operatore.

Cosa significa il traguardo della formazione ZAYA1 AMD per gli appalti AI

Il rapporto traccia una linea netta tra l’ecosistema NVIDIA e gli equivalenti AMD: NVLINK vs InfinityFabric, NCCL vs RCCL, cuBLASLt vs hipBLASLt e così via. Gli autori sostengono che lo stack AMD è ora abbastanza maturo per lo sviluppo di modelli seri su larga scala.

Niente di tutto ciò suggerisce che le aziende debbano eliminare i cluster NVIDIA esistenti. Un percorso più realistico è quello di mantenere NVIDIA per la produzione mentre si utilizza AMD per le fasi che beneficiano della capacità di memoria delle GPU MI300X e dell’apertura di ROCm. Distribuisce il rischio del fornitore e aumenta il volume totale di formazione senza grandi interruzioni.

Tutto ciò ci porta a una serie di raccomandazioni: considerare la forma del modello come regolabile, non fissa; progettare reti attorno alle operazioni collettive che la tua formazione utilizzerà effettivamente; creare una tolleranza agli errori che protegga le ore della GPU anziché limitarsi a registrare i guasti; e modernizzare i checkpoint in modo che non deragliano più il ritmo dell’allenamento.

Non è un manifesto, ma solo il nostro insegnamento pratico da ciò che Zyphra, AMD e IBM hanno imparato addestrando un grande modello di intelligenza artificiale MoE sulle GPU AMD. Per le organizzazioni che desiderano espandere la capacità dell’intelligenza artificiale senza fare affidamento esclusivamente su un fornitore, si tratta di un progetto potenzialmente utile.

Vedi anche: Google si impegna a realizzare un migliaio di infrastrutture IA in più nei prossimi 4-5 anni

Banner per gli eventi AI & Big Data Expo di TechEx.

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici tra cui Fiera della sicurezza informatica. Clic Qui per ulteriori informazioni

AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *