Claude affronta la distillazione del modello di intelligenza artificiale su scala industriale | Intelligenza-Artificiale

Indice contenuti

Antropico ha dettagliato tre campagne di distillazione di modelli di intelligenza artificiale “su scala industriale” da parte di laboratori esteri progettate per estrarre abilità da Claude.

Questi concorrenti hanno generato oltre 16 milioni di scambi utilizzando circa 24.000 conti ingannevoli. Il loro obiettivo era acquisire una logica proprietaria per migliorare le piattaforme concorrenti.

La tecnica di estrazione, nota come distillazione, prevede l’addestramento di un sistema più debole sui risultati di alta qualità di uno più forte.

Se applicata legittimamente, la distillazione aiuta le aziende a creare versioni più piccole ed economiche delle loro applicazioni per i clienti. Tuttavia, gli autori malintenzionati utilizzano questo metodo come arma per acquisire potenti funzionalità in una frazione del tempo e dei costi necessari per uno sviluppo indipendente.

Proteggere la proprietà intellettuale come Claude di Anthropic

La distillazione assoluta rappresenta una grave sfida in termini di proprietà intellettuale. Poiché Anthropic blocca l’accesso commerciale in Cina per motivi di sicurezza nazionale, gli aggressori aggirano le restrizioni di accesso regionali implementando reti proxy commerciali.

Questi servizi eseguono quelle che Anthropic chiama architetture “hydra cluster”, che distribuiscono il traffico su API e piattaforme cloud di terze parti. L’enorme ampiezza di queste reti significa che non esistono singoli punti di guasto. Come ha osservato Anthropic, “quando un account viene bannato, ne prende il posto uno nuovo”.

In un caso identificato, una singola rete proxy ha gestito contemporaneamente più di 20.000 account fraudolenti. Queste reti mescolano il traffico di distillazione del modello AI con le richieste standard dei clienti per eludere il rilevamento. Ciò ha un impatto diretto sulla resilienza aziendale e costringe i team di sicurezza a riconsiderare il modo in cui monitorano il traffico delle API cloud.

I modelli addestrati illegalmente aggirano anche i guardrail di sicurezza stabiliti, creando gravi rischi per la sicurezza nazionale. Gli sviluppatori statunitensi, ad esempio, creano protezioni per impedire ad attori statali e non statali di utilizzare questi sistemi per sviluppare armi biologiche o svolgere attività informatiche dannose.

I sistemi clonati non dispongono delle protezioni implementate da sistemi come Claude di Anthropic, consentendo alle capacità pericolose di proliferare con le protezioni completamente eliminate. I concorrenti stranieri possono alimentare queste capacità non protette nei sistemi militari, di intelligence e di sorveglianza, consentendo ai governi autoritari di impiegarle per operazioni offensive.

Se queste versioni distillate sono open source, il pericolo si moltiplica ulteriormente man mano che le capacità si diffondono liberamente oltre il controllo di ogni singolo governo.

L’estrazione illegale consente a entità straniere, comprese quelle sotto il controllo del Partito Comunista Cinese, di sopprimere il vantaggio competitivo protetto dai controlli sulle esportazioni. Senza visibilità su questi attacchi, i rapidi progressi degli sviluppatori stranieri appaiono erroneamente come innovazioni che eludono i controlli sulle esportazioni.

In realtà, questi progressi dipendono fortemente dall’estrazione della proprietà intellettuale americana su larga scala, uno sforzo che richiede ancora l’accesso a chip avanzati. L’accesso limitato ai chip limita sia la formazione diretta dei modelli che la portata della distillazione illecita.

Il manuale per la distillazione del modello di intelligenza artificiale

Gli autori del reato hanno seguito un approccio operativo simile, utilizzando account fraudolenti e servizi proxy per accedere a sistemi su larga scala eludendo al tempo stesso il rilevamento. Il volume, la struttura e il focus dei loro suggerimenti erano distinti dai normali modelli di utilizzo, riflettendo l’estrazione deliberata di capacità piuttosto che l’uso legittimo.

Anthropic ha attribuito queste campagne rivolte a Claude attraverso la correlazione dell’indirizzo IP, i metadati delle richieste e gli indicatori dell’infrastruttura. Ciascuna operazione mirava a funzioni altamente differenziate: ragionamento agente, utilizzo di strumenti e codifica.

Una campagna ha generato oltre 13 milioni di scambi mirati alla codifica degli agenti e all’orchestrazione degli strumenti. Anthropic ha rilevato questa operazione mentre era ancora attiva, mappando i tempi rispetto alla roadmap pubblica del prodotto concorrente. Quando Anthropic ha rilasciato un nuovo modello, il concorrente ha cambiato rotta nel giro di 24 ore, reindirizzando quasi la metà del proprio traffico per estrarre funzionalità dal sistema più recente.

Un’altra operazione ha generato oltre 3,4 milioni di richieste incentrate sulla visione artificiale, sull’analisi dei dati e sul ragionamento degli agenti. Questo gruppo ha utilizzato centinaia di account diversi per oscurare i loro sforzi coordinati. Anthropic ha attribuito questa campagna abbinando i metadati della richiesta ai profili pubblici del personale senior del laboratorio straniero. In una fase successiva, questo concorrente ha tentato di estrarre e ricostruire le tracce di ragionamento del sistema ospite.

Anthropic afferma che una terza campagna di distillazione di modelli di intelligenza artificiale mirata a Claude ha estratto capacità di ragionamento e dati di valutazione basati su rubriche attraverso oltre 150.000 interazioni. Questo gruppo ha costretto il sistema preso di mira a mappare la propria logica interna passo dopo passo, generando di fatto enormi volumi di dati di addestramento sulla catena di pensiero. Hanno anche estratto alternative sicure dalla censura a domande politicamente sensibili per addestrare i propri sistemi a allontanare le conversazioni da argomenti riservati. Gli autori del reato hanno generato traffico sincronizzato utilizzando modelli identici e metodi di pagamento condivisi per consentire il bilanciamento del carico.

I metadati richiesti per questa terza campagna hanno ricondotto questi account a specifici ricercatori del laboratorio. Queste richieste spesso appaiono innocue di per sé, come ad esempio chiedere semplicemente al sistema di agire come un esperto analista di dati fornendo approfondimenti fondati su un ragionamento completo. Ma quando variazioni di quell’esatta richiesta arrivano decine di migliaia di volte attraverso centinaia di account coordinati che mirano alla stessa ristretta capacità, il modello di estrazione diventa chiaro.

Un volume massiccio concentrato in aree specifiche, strutture altamente ripetitive e una mappatura dei contenuti diretta alle esigenze di formazione sono i tratti distintivi di un attacco di distillazione.

Implementazione di difese attuabili

La protezione degli ambienti aziendali richiede l’adozione di difese a più livelli per rendere tali sforzi di estrazione più difficili da eseguire e più facili da identificare. Anthropic consiglia di implementare l’impronta digitale comportamentale e i classificatori di traffico progettati per identificare i modelli di distillazione del modello AI nel traffico API.

I leader IT devono inoltre rafforzare i processi di verifica per i percorsi di vulnerabilità comuni, come account didattici, programmi di ricerca sulla sicurezza e organizzazioni startup.

Le aziende dovrebbero integrare misure di salvaguardia a livello di prodotto e di API progettate per ridurre l’efficacia dei risultati del modello per la distillazione illecita. Ciò deve essere fatto senza compromettere l’esperienza dei clienti legittimi e paganti.

Rilevare attività coordinate su un gran numero di account è una necessità assoluta. Ciò include in particolare il monitoraggio per l’elicitazione continua di output della catena di pensiero utilizzati per costruire dati di addestramento al ragionamento.

Anche la collaborazione intersettoriale rimane essenziale, poiché questi attacchi stanno crescendo in intensità e sofisticatezza. Ciò richiede una condivisione rapida e coordinata dell’intelligence tra laboratori di intelligenza artificiale, fornitori di servizi cloud e responsabili politici.

Anthropic ha pubblicato le sue scoperte su Claude preso di mira dalle campagne di distillazione del modello AI per fornire un quadro più olistico del paesaggio e rendere le prove disponibili a tutte le parti interessate. Trattando le architetture AI con rigorosi controlli di accesso, i responsabili tecnologici possono garantire il proprio vantaggio competitivo garantendo al tempo stesso una governance continua.

Vedi anche: In che modo i cloud disconnessi migliorano la governance dei dati AI

Banner per la serie di eventi AI & Big Data Expo.

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici tra cui Fiera sulla sicurezza informatica e sul cloud. Clic Qui per ulteriori informazioni

AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.

Fonte: www.artificialintelligence-news.com