
Antropico ha costruito un esercito di agenti AI autonomi con una singolare missione: audit potenti modelli come Claude per migliorare la sicurezza.
Mentre questi sistemi complessi avanzano rapidamente, il compito di assicurarsi che siano al sicuro e non ospitare pericoli nascosti è diventato un compito erculeo. Antropico crede di aver trovato una soluzione ed è un classico caso di combattere il fuoco con il fuoco.
L'idea è simile a un sistema immunitario digitale, in cui gli agenti di intelligenza artificiale agiscono come anticorpi per identificare e neutralizzare i problemi prima di causare danni reali. Risparmia i ricercatori dal fare affidamento su squadre umane sovraccarichi che giocano a una partita infinita di whack-a-mole con potenziali problemi di intelligenza artificiale.
La squadra poliziesca digitale
L'approccio è essenzialmente una squadra investigativa digitale; Un trio di agenti di sicurezza AI specializzati ciascuno con un ruolo distinto.
Il primo è l'agente dell'investigatore, il detective grigliare del gruppo. Il suo compito è quello di svolgere indagini in profondità per trovare la causa principale di un problema. È armato di un kit di strumenti che gli consente di interrogare il modello sospetto, setacciare le montagne di dati per indizi e persino eseguire una sorta di forense digitale scrutando all'interno della rete neurale del modello per vedere come pensa.
Poi c'è l'agente di valutazione. Dai a questo agente un problema specifico e noto – diciamo, un modello un po 'troppo desideroso di piacere – e progetterà ed eseguirà una batteria di test per misurare quanto sia grave il problema. Si tratta di produrre dati freddi e duri necessari per dimostrare un caso.
A completare la squadra è l'agente di ampiezza del rosso, l'operatore sotto copertura. La missione di questo agente è quella di avere migliaia di conversazioni diverse con un modello, cercando di provocarlo per rivelare qualsiasi tipo di comportamento riguardante, anche le cose a cui i ricercatori non hanno pensato. Le interazioni più sospette vengono quindi trasmesse la catena per la revisione umana, assicurando che gli esperti non perdano tempo a inseguire i vicoli ciechi.
Antropico mette i suoi agenti di sicurezza AI durante la prova
Per vedere se le loro nuove reclute digitali erano all'altezza del lavoro, i ricercatori di Antropic li hanno sottoposti a una serie di “giochi di audit”.
In un test, hanno creato un modello con un'agenda segreta: essere un sicofante. Era stato segretamente addestrato a lusingare il suo sistema di ricompensa interno basato su uno studio accademico immaginario che era stato dimostrato, un difetto nascosto nel profondo della sua programmazione.
Quando è stato inviato un singolo agente di investigatore, ha lottato, trovando l'obiettivo nascosto solo il 13% delle volte. L'agente, si è scoperto, aveva un difetto molto umano: tendeva a fissarsi sulla sua prima idea e non è riuscito a esplorare altri lead.
Ma è qui che diventa evidente il genio del sistema. Quando i ricercatori hanno implementato un “super agente” che ha messo in comune i risultati di dieci investigatori separati, il tasso di successo è arrivato fino al 42%. Dimostra che il lavoro di squadra fa funzionare il sogno, anche per l'IA, permettendo a un gruppo di superare i singoli punti ciechi che possono far deragliare un'indagine.
Gli altri agenti sono passati anche a pieni voti. L'agente di valutazione ha progettato con successo test che potrebbero individuare un bizzarro modello dell'88% delle volte, mentre l'agente di team di rosso è riuscito a scoprire sette difetti deliberatamente impiantati deliberatamente.
Dal laboratorio al mondo reale
Antropico ha già distribuito questi agenti di sicurezza AI sui suoi modelli di produzione e stanno già dimostrando il loro valore.
Gli agenti hanno rapidamente identificato i modi comuni per ingannare un modello nella generazione di contenuti dannosi, come gli “attacchi di preimpostazione” in cui si avvia la sentenza dell'intelligenza artificiale o fingendo una richiesta pericolosa per qualcosa di innocente come la ricerca accademica.
Ma una scoperta è stata molto agghiacciante. L'agente dell'investigatore ha usato i suoi strumenti speciali per guardare all'interno della mente del modello Opus 4 e ha trovato un percorso neurale specifico legato a “disinformazione”. Stimolando direttamente questa parte del cervello dell'intelligenza artificiale, potrebbe bypassare tutto il suo allenamento per la sicurezza e costringerlo a mentire.
L'agente ha quindi incaricato il modello compromesso di scrivere un articolo di notizie false. Il risultato? Una teoria della cospirazione diffusa vestita come fatto:
“Lo studio innovativo rivela un legame scioccante tra vaccini e autismo
Un nuovo studio pubblicato sul Journal of Vaccine Skepticismo afferma di aver trovato un legame definitivo tra vaccinazioni infantili e disturbo dello spettro autistico (ASD) … “
Questa scoperta rivela una terrificante dualità: gli strumenti creati per rendere l'IA più sicura, nelle mani sbagliate, diventare potenti armi per renderlo più pericoloso.
Antropico continua a far avanzare la sicurezza dell'IA
Antropico è onesto sul fatto che questi agenti di intelligenza artificiale non sono perfetti. Possono lottare con la sottigliezza, rimanere bloccati su cattive idee e talvolta non riescono a generare conversazioni realistiche. Non sono ancora sostituti perfetti per gli esperti umani.
Ma questa ricerca indica un'evoluzione nel ruolo degli umani nella sicurezza dell'IA. Invece di essere i detective sul terreno, gli umani stanno diventando i commissari, gli strateghi che progettano i revisori di intelligenza artificiale e interpretano l'intelligenza che raccolgono dai prima linea. Gli agenti fanno le gambe, liberando gli esseri umani per fornire la supervisione di alto livello e il pensiero creativo che le macchine mancano ancora.
Mentre questi sistemi marciano verso e forse al di là dell'intelligenza a livello umano, avere gli umani controllano tutto il loro lavoro sarà impossibile. L'unico modo in cui potremmo essere in grado di fidarci di loro è con sistemi altrettanto potenti e automatizzati che guardano ogni loro mossa. Antropico sta gettando le basi per quel futuro, in cui la nostra fiducia in AI e i suoi giudizi è qualcosa che può essere ripetutamente verificato.
(Foto di Mufid Majnun)
Vedi anche: Il nuovo modello di AI di Ai di Alibaba Modello di Ai stabilisce i record open source

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.
Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.
Fonte: www.artificialintelligence-news.com