La svolta dell’apprendimento contraddittorio consente la sicurezza dell’intelligenza artificiale in tempo reale

 | Intelligenza-Artificiale

La capacità di eseguire l’apprendimento contraddittorio per la sicurezza dell’intelligenza artificiale in tempo reale offre un vantaggio decisivo rispetto ai meccanismi di difesa statici.

L’emergere di attacchi guidati dall’intelligenza artificiale – che utilizzano funzionalità di apprendimento per rinforzo (RL) e Large Language Model (LLM) – ha creato una classe di “vibe hacking” e minacce adattive che mutano più velocemente di quanto i team umani possano rispondere. Ciò rappresenta un rischio operativo e di governance per i leader aziendali che la politica da sola non può mitigare.

Gli aggressori ora utilizzano il ragionamento in più fasi e la generazione automatizzata di codice per aggirare le difese stabilite. Di conseguenza, l’industria sta osservando una migrazione necessaria verso la “difesa autonoma” (ovvero sistemi in grado di apprendere, anticipare e rispondere in modo intelligente senza l’intervento umano).

La transizione a questi sofisticati modelli di difesa, tuttavia, ha storicamente raggiunto un limite operativo difficile: la latenza.

L’applicazione dell’apprendimento contraddittorio, in cui i modelli di minaccia e di difesa vengono addestrati continuamente l’uno contro l’altro, offre un metodo per contrastare le minacce dannose alla sicurezza dell’IA. Tuttavia, l’implementazione delle necessarie architetture basate su trasformatori in un ambiente di produzione live crea un collo di bottiglia.

Abe Starosta, Principal Applied Research Manager di Microsoft NEXT.ai, ha dichiarato: “L’apprendimento competitivo funziona solo in produzione quando latenza, throughput e precisione si muovono insieme.

I costi computazionali associati all’esecuzione di questi modelli densi in precedenza costringevano i leader a scegliere tra il rilevamento ad alta precisione (che è lento) e l’euristica ad alto rendimento (che è meno accurata).

Collaborazione ingegneristica tra Microsoft E NVIDIA mostra come l’accelerazione hardware e l’ottimizzazione a livello di kernel rimuovono questa barriera, rendendo la difesa avversaria in tempo reale praticabile su scala aziendale.

Per rendere operativi i modelli dei trasformatori per il traffico in tempo reale, i team di ingegneri hanno dovuto affrontare i limiti intrinseci dell’inferenza basata sulla CPU. Le unità di elaborazione standard faticano a gestire il volume e la velocità dei carichi di lavoro di produzione quando sono gravate da reti neurali complesse.

Nei test di base condotti dai team di ricerca, una configurazione basata su CPU ha prodotto una latenza end-to-end di 1239,67 ms con un throughput di appena 0,81 req/s. Per un istituto finanziario o una piattaforma di e-commerce globale, un ritardo di un secondo per ogni richiesta è operativamente insostenibile.

Passando a un’architettura accelerata dalla GPU (utilizzando in particolare le unità NVIDIA H100), la latenza di base è scesa a 17,8 ms. I soli aggiornamenti hardware, tuttavia, si sono rivelati insufficienti per soddisfare i severi requisiti di sicurezza dell’intelligenza artificiale in tempo reale.

Attraverso un’ulteriore ottimizzazione del motore di inferenza e dei processi di tokenizzazione, i team hanno raggiunto una latenza end-to-end finale di 7,67 ms, ovvero un aumento delle prestazioni di 160 volte rispetto alla base della CPU. Tale riduzione porta il sistema ben entro le soglie accettabili per l’analisi del traffico in linea, consentendo l’implementazione di modelli di rilevamento con una precisione superiore al 95% sui benchmark di apprendimento adversarial.

Un ostacolo operativo identificato durante questo progetto offre informazioni preziose per i CTO che supervisionano l’integrazione dell’intelligenza artificiale. Sebbene il modello di classificazione stesso sia computazionalmente pesante, la pipeline di pre-elaborazione dei dati – in particolare la tokenizzazione – è emersa come un collo di bottiglia secondario.

Le tecniche di tokenizzazione standard, spesso basate sulla segmentazione degli spazi bianchi, sono progettate per l’elaborazione del linguaggio naturale (ad esempio articoli e documentazione). Si rivelano inadeguati per i dati sulla sicurezza informatica, che consistono in stringhe di richieste densamente imballate e carichi utili generati dalle macchine privi di interruzioni naturali.

Per risolvere questo problema, i team di ingegneri hanno sviluppato un tokenizzatore specifico per il dominio. Integrando punti di segmentazione specifici della sicurezza adattati alle sfumature strutturali dei dati della macchina, hanno consentito un parallelismo a grana più fine. Questo approccio su misura per la sicurezza ha prodotto una riduzione di 3,5 volte della latenza della tokenizzazione, evidenziando che i componenti AI standard spesso richiedono una riprogettazione specifica del dominio per funzionare efficacemente in ambienti di nicchia.

Il raggiungimento di questi risultati ha richiesto uno stack di inferenza coeso piuttosto che aggiornamenti isolati. L’architettura utilizzava NVIDIA Dynamo e Triton Inference Server per il servizio, insieme a un’implementazione TensorRT del classificatore delle minacce di Microsoft.

Il processo di ottimizzazione prevedeva la fusione di operazioni chiave, quali funzioni di normalizzazione, incorporamento e attivazione, in singoli kernel CUDA personalizzati. Questa fusione riduce al minimo il traffico di memoria e il sovraccarico di lancio, che sono frequenti killer silenziosi delle prestazioni nelle applicazioni di sicurezza o di trading ad alta frequenza. TensorRT ha fuso automaticamente le operazioni di normalizzazione nei kernel precedenti, mentre gli sviluppatori hanno creato kernel personalizzati per l’attenzione della finestra scorrevole.

Il risultato di queste specifiche ottimizzazioni dell’inferenza è stata una riduzione della latenza del passaggio in avanti da 9,45 ms a 3,39 ms, un aumento di 2,8 volte che ha contribuito alla maggior parte della riduzione della latenza osservata nei parametri finali.

Rachel Allen, Cybersecurity Manager di NVIDIA, ha spiegato: “Proteggere le imprese significa abbinare il volume e la velocità dei dati sulla sicurezza informatica e adattarsi alla velocità di innovazione degli avversari.

“I modelli difensivi necessitano di una latenza estremamente bassa per funzionare alla velocità di linea e dell’adattabilità per proteggersi dalle minacce più recenti. La combinazione dell’apprendimento contraddittorio con i modelli di rilevamento accelerati basati su trasformatore NVIDIA TensorRT fa proprio questo.”

Il successo in questo caso indica un requisito più ampio per l’infrastruttura aziendale. Poiché gli autori delle minacce sfruttano l’intelligenza artificiale per mutare gli attacchi in tempo reale, i meccanismi di sicurezza devono possedere il margine computazionale per eseguire modelli di inferenza complessi senza introdurre latenza.

Affidarsi al calcolo della CPU per il rilevamento avanzato delle minacce sta diventando una responsabilità. Proprio come il rendering grafico è stato spostato sulle GPU, l’inferenza di sicurezza in tempo reale richiede hardware specializzato per mantenere un throughput >130 req/s garantendo al tempo stesso una copertura solida.

Inoltre, i modelli di intelligenza artificiale generici e i tokenizzatori spesso falliscono su dati specializzati. Il “vibe hacking” e i complessi carichi utili delle minacce moderne richiedono modelli addestrati specificamente su modelli dannosi e segmentazioni di input che riflettono la realtà dei dati della macchina.

Guardando al futuro, la tabella di marcia per la sicurezza futura prevede l’addestramento di modelli e architetture specifici per la robustezza degli avversari, utilizzando potenzialmente tecniche come la quantizzazione per migliorare ulteriormente la velocità.

Formando continuamente modelli di minaccia e di difesa in tandem, le organizzazioni possono costruire le basi per una protezione basata sull’intelligenza artificiale in tempo reale che si adatta alla complessità dell’evoluzione delle minacce alla sicurezza. La svolta dell’apprendimento contraddittorio dimostra che la tecnologia per raggiungere questo obiettivo – bilanciando latenza, velocità effettiva e accuratezza – è ora in grado di essere implementata oggi.

Vedi anche: ZAYA1: il modello AI che utilizza GPU AMD per l’addestramento raggiunge un traguardo importante

Banner per gli eventi AI & Big Data Expo di TechEx.

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici tra cui Fiera della sicurezza informatica. Clic Qui per ulteriori informazioni

AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *