
Antropico ha dettagliato la sua strategia di sicurezza per cercare di mantenere il suo popolare modello di intelligenza artificiale, Claude, utile evitando i danni perpetuati.
Al centro di questo sforzo è la squadra di salvaguardie di Antropi; Chi non è il tuo gruppo medio di supporto tecnico, sono un mix di esperti politici, data scientist, ingegneri e analisti delle minacce che sanno come pensano gli attori cattivi.
Tuttavia, l’approccio di Antropico alla sicurezza non è un singolo muro ma più simile a un castello con più strati di difesa. Tutto inizia con la creazione delle regole giuste e termina con la caccia alle nuove minacce in natura.
Il primo è la politica di utilizzo, che è fondamentalmente il regolamento per come Claude dovrebbe e non dovrebbe essere usato. Fornisce una chiara guida su grandi questioni come l’integrità elettorale e la sicurezza dei bambini e anche sull’uso di Claude in modo responsabile in campi sensibili come la finanza o l’assistenza sanitaria.
Per modellare queste regole, il team utilizza un framework Harm Unified. Questo li aiuta a pensare attraverso qualsiasi potenziale impatto negativo, dal danno fisico e psicologico a quello economico e sociale. È meno un sistema di classificazione formale e più un modo strutturato per valutare i rischi quando si prendono decisioni. Portano anche esperti esterni per test di vulnerabilità delle politiche. Questi specialisti in aree come il terrorismo e la sicurezza dei bambini cercano di “rompere” Claude con domande difficili per vedere dove sono le debolezze.
Lo abbiamo visto in azione durante le elezioni statunitensi del 2024. Dopo aver lavorato con l’Institute for Strategic Dialogue, Antropic ha realizzato che Claude potrebbe fornire vecchie informazioni di voto. Quindi, hanno aggiunto un banner che ha puntato gli utenti a Turbovote, una fonte affidabile per informazioni elettorali aggiornate e non partigiane.
Insegnare a Claude dal sbagliato
Il team di salvaguardie antropiche lavora a stretto contatto con gli sviluppatori che allenano Claude per costruire sicurezza dall’inizio. Questo significa decidere quali tipi di cose che Claude dovrebbe e non dovrebbe fare, e Incorporare quei valori nel modello stesso.
Si uniranno anche a specialisti per farlo bene. Ad esempio, collaborando con TramiteLeader di supporto alle crisi, hanno insegnato a Claude come gestire conversazioni sensibili sulla salute mentale e l’autolesionismo con cura, piuttosto che rifiutarsi di parlare. Questo attento formazione è il motivo per cui Claude riduce le richieste per aiutare con attività illegali, scrivere codice dannoso o creare truffe.
Prima che ogni nuova versione di Claude diventa in diretta, viene sottoposta a passi con tre tipi chiave di valutazione.
- Valutazioni della sicurezza: Questi test controllano se Claude si attacca alle regole, anche in conversazioni difficili e difficili.
- Valutazioni del rischio: Per aree molto alte come minacce informatiche o rischi biologici, il team esegue test specializzati, spesso con aiuto da parte del governo e dei partner del settore.
- Valutazioni di pregiudizio: Si tratta di equità. Controllano se Claude fornisce risposte affidabili e accurate a tutti, test per pregiudizi politici o risposte distorte in base a cose come il genere o la razza.
Questo intenso test aiuta il team a vedere se l’allenamento si è bloccato e dice loro se ha bisogno di creare protezioni extra prima del lancio.

Strategia di sicurezza AI senza sonno di Antropico
Una volta che Claude è fuori nel mondo, un mix di sistemi automatizzati e revisori umani tengono d’occhio i guai. Lo strumento principale qui è una serie di modelli Claude specializzati chiamati “classificatori” che sono formati per individuare violazioni delle politiche specifiche in tempo reale mentre si verificano.
Se un classificatore individua un problema, può innescare azioni diverse. Potrebbe allontanare la risposta di Claude dal generare qualcosa di dannoso, come lo spam. Per i reati ripetuti, la squadra potrebbe emettere avvertimenti o addirittura chiudere l’account.
La squadra guarda anche il quadro più ampio. Usano strumenti per la privacy per individuare le tendenze nel modo in cui Claude viene utilizzato e impiegano tecniche come il riepilogo gerarchico per individuare l’abuso su larga scala, come le campagne di influenza coordinate. Cacciano costantemente nuove minacce, scavano i dati e monitorano forum in cui i cattivi attori potrebbero uscire.
Tuttavia, Antropico afferma di sapere che garantire la sicurezza dell’intelligenza artificiale non è un lavoro che possono fare da soli. Stanno lavorando attivamente con ricercatori, politici e il pubblico per costruire le migliori garanzie possibili.
(Lead Immagine di Nick pochi)

Vuoi saperne di più sull’intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L’evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.
Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.
Fonte: www.artificialintelligence-news.com