Il router AI Cisco risolve la sfida dell'interconnessione dei data center | Intelligenza-Artificiale

Indice contenuti

Cisco è entrata in una corsa sempre più competitiva per dominare la tecnologia di interconnessione dei data center AI, diventando l’ultimo grande attore a svelare hardware di routing appositamente creato per connettere carichi di lavoro AI distribuiti su più strutture.

Il gigante delle reti ha presentato il suo sistema di routing 8223 l’8 ottobre, introducendo quello che sostiene sia il primo router fisso da 51,2 terabit al secondo del settore appositamente progettato per collegare data center che eseguono carichi di lavoro AI.

Al centro si trova il nuovo chip Silicon One P200, che rappresenta la risposta di Cisco a una sfida che sta sempre più limitando il settore dell’intelligenza artificiale: cosa succede quando si esaurisce lo spazio per crescere.

Una battaglia a tre per la supremazia su vasta scala?

Per il contesto, Cisco non è la sola a riconoscere questa opportunità. Broadcom ha lanciato il primo tentativo a metà agosto con i suoi chip switch/router StrataDNX “Jericho 4”, che hanno iniziato il campionamento e hanno anche offerto 51,2 Tb/sec di larghezza di banda aggregata supportata dalla memoria HBM per un buffering profondo dei pacchetti per gestire la congestione.

Due settimane dopo l’annuncio di Broadcom, Nvidia ha presentato il suo Rete scalabile Spectrum-XGS—un nome particolarmente sfacciato dato che gli ASIC switch “Trident” e “Tomahawk” di Broadcom appartengono alla famiglia StrataXGS.

Nvidia si è assicurata CoreWeave come cliente principale, ma ha fornito dettagli tecnici limitati sugli ASIC Spectrum-XGS. Ora Cisco sta lanciando i propri componenti per il mercato delle reti su vasta scala, creando una competizione a tre tra i pesi massimi del networking.

Il problema: l’intelligenza artificiale è troppo grande per un edificio

Per capire perché diversi fornitori si stanno precipitando in questo spazio, considera la portata della moderna infrastruttura di intelligenza artificiale. L’addestramento di modelli linguistici di grandi dimensioni o l’esecuzione di complessi sistemi di intelligenza artificiale richiedono migliaia di processori ad alta potenza che lavorano in sinergia, generando enormi quantità di calore e consumando enormi quantità di elettricità.

I data center stanno raggiungendo limiti severi, non solo in termini di spazio disponibile, ma anche di quanta energia possono fornire e raffreddare.

“L’elaborazione basata sull’intelligenza artificiale sta superando la capacità anche dei data center più grandi, determinando la necessità di connessioni affidabili e sicure tra data center distanti centinaia di chilometri”, ha affermato Martin Lund, vicepresidente esecutivo del Common Hardware Group di Cisco.

Il settore ha tradizionalmente affrontato le sfide legate alla capacità attraverso due approcci: scalabilità verticale (aggiungendo più capacità ai singoli sistemi) o scalabilità orizzontale (collegamento di più sistemi all’interno della stessa struttura).

Ma entrambe le strategie stanno raggiungendo i loro limiti. I data center stanno esaurendo lo spazio fisico, le reti elettriche non possono fornire abbastanza elettricità e i sistemi di raffreddamento non riescono a dissipare il calore abbastanza velocemente.

Ciò impone un terzo approccio: “scale-across”, distribuendo i carichi di lavoro dell’intelligenza artificiale su più data center che potrebbero trovarsi in città diverse o addirittura stati diversi. Tuttavia, ciò crea un nuovo problema: le connessioni tra queste strutture diventano colli di bottiglia critici.

Perché i router tradizionali non sono all’altezza

I carichi di lavoro AI si comportano in modo diverso dal tipico traffico del data center. Le sessioni di training generano modelli di traffico massicci e frenetici: periodi di intenso movimento di dati seguiti da una relativa quiete. Se la rete che collega i data center non riesce ad assorbire questi picchi, tutto rallenta, sprecando costose risorse di calcolo e, soprattutto, tempo e denaro.

Le apparecchiature di routing tradizionali non sono state progettate per questo. La maggior parte dei router dà priorità alla velocità pura o alla gestione sofisticata del traffico, ma fatica a fornire entrambe le prestazioni contemporaneamente mantenendo un consumo energetico ragionevole. Per le applicazioni di interconnessione dei data center AI, le organizzazioni hanno bisogno di tutti e tre: velocità, buffering intelligente ed efficienza.

La risposta di Cisco: il sistema 8223

Il sistema 8223 di Cisco rappresenta un allontanamento dalle apparecchiature di routing generiche. Ospitato in uno chassis compatto a tre unità rack, offre 64 porte di connettività da 800 gigabit, attualmente la più alta densità disponibile in un sistema di routing fisso. Ancora più importante, può elaborare oltre 20 miliardi di pacchetti al secondo e scalare fino a tre Exabyte al secondo di larghezza di banda di interconnessione.

La caratteristica distintiva del sistema è la profonda capacità di buffering, abilitata dal chip P200. Pensa ai buffer come ad aree di conservazione temporanee dei dati, come un serbatoio che cattura l’acqua durante le forti piogge. Quando l’addestramento dell’intelligenza artificiale genera picchi di traffico, i buffer dell’8223 assorbono il picco, prevenendo la congestione della rete che altrimenti rallenterebbe costosi cluster GPU inattivi in attesa di dati.

L’efficienza energetica è un altro vantaggio fondamentale. Essendo un sistema 3RU, l’8223 raggiunge ciò che Cisco descrive come “efficienza energetica simile a uno switch” pur mantenendo le capacità di routing, fondamentali quando i data center stanno già mettendo a dura prova i budget energetici.

Il sistema supporta inoltre l’ottica coerente 800G, consentendo connessioni che si estendono fino a 1.000 chilometri tra le strutture, essenziali per la distribuzione geografica dell’infrastruttura AI.

Adozione del settore e applicazioni nel mondo reale

I principali hyperscaler stanno già implementando la tecnologia. Microsoft, uno dei primi ad adottare Silicon One, ha trovato l’architettura preziosa in molteplici casi d’uso.

Dave Maltz, tecnico e vicepresidente aziendale di Azure Networking presso Microsoft, ha osservato che “l’architettura ASIC comune ci ha reso più semplice l’espansione dai nostri casi d’uso iniziali a più ruoli in ambienti DC, WAN e AI/ML”.

Alibaba Cloud prevede di utilizzare il P200 come base per espandere la propria architettura eCore. Dennis Cai, vicepresidente e responsabile dell’infrastruttura di rete di Alibaba Cloud, ha affermato che il chip “ci consentirà di estenderci nella rete Core, sostituendo i tradizionali router basati su chassis con un cluster di dispositivi alimentati da P200”.

Lumen sta inoltre esplorando il modo in cui la tecnologia si inserisce nei suoi piani di infrastruttura di rete. Dave Ward, chief technology officer e product officer di Lumen, ha affermato che l’azienda sta “esplorando come la nuova tecnologia Cisco 8223 potrebbe adattarsi ai nostri piani per migliorare le prestazioni della rete e offrire servizi superiori ai nostri clienti”.

Programmabilità: rendere l’investimento a prova di futuro

Un aspetto spesso trascurato dell’infrastruttura di interconnessione dei data center AI è l’adattabilità. I requisiti di rete dell’intelligenza artificiale si stanno evolvendo rapidamente, con nuovi protocolli e standard che emergono regolarmente.

L’hardware tradizionale richiede in genere la sostituzione o aggiornamenti costosi per supportare nuove funzionalità. La programmabilità del P200 affronta questa sfida.

Le organizzazioni possono aggiornare il silicio per supportare i protocolli emergenti senza sostituire l’hardware, cosa importante quando i singoli sistemi di routing rappresentano investimenti di capitale significativi e gli standard di rete AI rimangono in continuo cambiamento.

Considerazioni sulla sicurezza

Il collegamento di data center distanti centinaia di chilometri introduce sfide in termini di sicurezza. L’8223 include la crittografia della velocità di linea utilizzando algoritmi resilienti post-quantistici, affrontando le preoccupazioni sulle future minacce derivanti dall’informatica quantistica. L’integrazione con le piattaforme di osservabilità di Cisco fornisce un monitoraggio dettagliato della rete per identificare e risolvere rapidamente i problemi.

Cisco può competere?

Con Broadcom e Nvidia che già rivendicano le loro pretese nel mercato delle reti su vasta scala, Cisco deve affrontare una concorrenza consolidata. Tuttavia, l’azienda offre vantaggi: una presenza di lunga data nelle reti aziendali e di fornitori di servizi, il portafoglio maturo Silicon One lanciato nel 2019 e rapporti con i principali hyperscaler che già utilizzano la sua tecnologia.

L’8223 viene inizialmente fornito con supporto SONiC open source, con IOS XR pianificato per la disponibilità futura. Il P200 sarà disponibile su più tipi di piattaforma, inclusi i sistemi modulari e il portafoglio Nexus.

Questa flessibilità nelle opzioni di implementazione potrebbe rivelarsi decisiva poiché le organizzazioni cercano di evitare il vincolo del fornitore mentre costruiscono un’infrastruttura AI distribuita.

Resta da vedere se l’approccio di Cisco diventerà lo standard del settore per l’interconnessione dei data center AI, ma il problema fondamentale che tutti e tre i fornitori stanno affrontando – connettere in modo efficiente l’infrastruttura AI distribuita – diventerà sempre più pressante man mano che i sistemi AI continuano a crescere oltre i limiti di una singola struttura.

Il vero vincitore potrebbe in definitiva essere determinato non solo dalle specifiche tecniche, ma da quale fornitore può fornire l’ecosistema più completo di software, supporto e capacità di integrazione attorno al proprio silicio.

Vedi anche:

Banner per gli eventi AI & Big Data Expo di TechEx.

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici tra cui Fiera della sicurezza informaticaclic Qui per ulteriori informazioni

AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.

Fonte: www.artificialintelligence-news.com

Categorie

Una battaglia a tre per la supremazia su vasta scala?

Il problema: l’intelligenza artificiale è troppo grande per un edificio