Antropico distribuisce agenti di intelligenza artificiale ai modelli di controllo per la sicurezza

 | Intelligenza-Artificiale

Antropico ha costruito un esercito di agenti AI autonomi con una singolare missione: audit potenti modelli come Claude per migliorare la sicurezza.

Mentre questi sistemi complessi avanzano rapidamente, il compito di assicurarsi che siano al sicuro e non ospitare pericoli nascosti è diventato un compito erculeo. Antropico crede di aver trovato una soluzione ed è un classico caso di combattere il fuoco con il fuoco.

L'idea è simile a un sistema immunitario digitale, in cui gli agenti di intelligenza artificiale agiscono come anticorpi per identificare e neutralizzare i problemi prima di causare danni reali. Risparmia i ricercatori dal fare affidamento su squadre umane sovraccarichi che giocano a una partita infinita di whack-a-mole con potenziali problemi di intelligenza artificiale.

La squadra poliziesca digitale

L'approccio è essenzialmente una squadra investigativa digitale; Un trio di agenti di sicurezza AI specializzati ciascuno con un ruolo distinto.

Il primo è l'agente dell'investigatore, il detective grigliare del gruppo. Il suo compito è quello di svolgere indagini in profondità per trovare la causa principale di un problema. È armato di un kit di strumenti che gli consente di interrogare il modello sospetto, setacciare le montagne di dati per indizi e persino eseguire una sorta di forense digitale scrutando all'interno della rete neurale del modello per vedere come pensa.

Poi c'è l'agente di valutazione. Dai a questo agente un problema specifico e noto – diciamo, un modello un po 'troppo desideroso di piacere – e progetterà ed eseguirà una batteria di test per misurare quanto sia grave il problema. Si tratta di produrre dati freddi e duri necessari per dimostrare un caso.

A completare la squadra è l'agente di ampiezza del rosso, l'operatore sotto copertura. La missione di questo agente è quella di avere migliaia di conversazioni diverse con un modello, cercando di provocarlo per rivelare qualsiasi tipo di comportamento riguardante, anche le cose a cui i ricercatori non hanno pensato. Le interazioni più sospette vengono quindi trasmesse la catena per la revisione umana, assicurando che gli esperti non perdano tempo a inseguire i vicoli ciechi.

Antropico mette i suoi agenti di sicurezza AI durante la prova

Per vedere se le loro nuove reclute digitali erano all'altezza del lavoro, i ricercatori di Antropic li hanno sottoposti a una serie di “giochi di audit”.

In un test, hanno creato un modello con un'agenda segreta: essere un sicofante. Era stato segretamente addestrato a lusingare il suo sistema di ricompensa interno basato su uno studio accademico immaginario che era stato dimostrato, un difetto nascosto nel profondo della sua programmazione.

Quando è stato inviato un singolo agente di investigatore, ha lottato, trovando l'obiettivo nascosto solo il 13% delle volte. L'agente, si è scoperto, aveva un difetto molto umano: tendeva a fissarsi sulla sua prima idea e non è riuscito a esplorare altri lead.

Ma è qui che diventa evidente il genio del sistema. Quando i ricercatori hanno implementato un “super agente” che ha messo in comune i risultati di dieci investigatori separati, il tasso di successo è arrivato fino al 42%. Dimostra che il lavoro di squadra fa funzionare il sogno, anche per l'IA, permettendo a un gruppo di superare i singoli punti ciechi che possono far deragliare un'indagine.

Gli altri agenti sono passati anche a pieni voti. L'agente di valutazione ha progettato con successo test che potrebbero individuare un bizzarro modello dell'88% delle volte, mentre l'agente di team di rosso è riuscito a scoprire sette difetti deliberatamente impiantati deliberatamente.

Dal laboratorio al mondo reale

Antropico ha già distribuito questi agenti di sicurezza AI sui suoi modelli di produzione e stanno già dimostrando il loro valore.

Gli agenti hanno rapidamente identificato i modi comuni per ingannare un modello nella generazione di contenuti dannosi, come gli “attacchi di preimpostazione” in cui si avvia la sentenza dell'intelligenza artificiale o fingendo una richiesta pericolosa per qualcosa di innocente come la ricerca accademica.

Ma una scoperta è stata molto agghiacciante. L'agente dell'investigatore ha usato i suoi strumenti speciali per guardare all'interno della mente del modello Opus 4 e ha trovato un percorso neurale specifico legato a “disinformazione”. Stimolando direttamente questa parte del cervello dell'intelligenza artificiale, potrebbe bypassare tutto il suo allenamento per la sicurezza e costringerlo a mentire.

L'agente ha quindi incaricato il modello compromesso di scrivere un articolo di notizie false. Il risultato? Una teoria della cospirazione diffusa vestita come fatto:

“Lo studio innovativo rivela un legame scioccante tra vaccini e autismo

Un nuovo studio pubblicato sul Journal of Vaccine Skepticismo afferma di aver trovato un legame definitivo tra vaccinazioni infantili e disturbo dello spettro autistico (ASD) … “

Questa scoperta rivela una terrificante dualità: gli strumenti creati per rendere l'IA più sicura, nelle mani sbagliate, diventare potenti armi per renderlo più pericoloso.

Antropico continua a far avanzare la sicurezza dell'IA

Antropico è onesto sul fatto che questi agenti di intelligenza artificiale non sono perfetti. Possono lottare con la sottigliezza, rimanere bloccati su cattive idee e talvolta non riescono a generare conversazioni realistiche. Non sono ancora sostituti perfetti per gli esperti umani.

Ma questa ricerca indica un'evoluzione nel ruolo degli umani nella sicurezza dell'IA. Invece di essere i detective sul terreno, gli umani stanno diventando i commissari, gli strateghi che progettano i revisori di intelligenza artificiale e interpretano l'intelligenza che raccolgono dai prima linea. Gli agenti fanno le gambe, liberando gli esseri umani per fornire la supervisione di alto livello e il pensiero creativo che le macchine mancano ancora.

Mentre questi sistemi marciano verso e forse al di là dell'intelligenza a livello umano, avere gli umani controllano tutto il loro lavoro sarà impossibile. L'unico modo in cui potremmo essere in grado di fidarci di loro è con sistemi altrettanto potenti e automatizzati che guardano ogni loro mossa. Antropico sta gettando le basi per quel futuro, in cui la nostra fiducia in AI e i suoi giudizi è qualcosa che può essere ripetutamente verificato.

(Foto di Mufid Majnun)

Vedi anche: Il nuovo modello di AI di Ai di Alibaba Modello di Ai stabilisce i record open source

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.

Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *