Aggiornamento del quadro di sicurezza delle frontiere

 | Intelligenza-Artificiale

La nostra prossima iterazione della FSF stabilisce protocolli di sicurezza più forti nel percorso verso l’AGI

L’intelligenza artificiale è uno strumento potente che sta aiutando a sbloccare nuove scoperte e a compiere progressi significativi su alcune delle più grandi sfide del nostro tempo, dal cambiamento climatico alla scoperta di farmaci. Ma man mano che il suo sviluppo avanza, le capacità avanzate possono presentare nuovi rischi.

Ecco perché noi introdotto lo scorso anno la prima iterazione del nostro Frontier Safety Framework: una serie di protocolli per aiutarci a stare al passo con i possibili gravi rischi derivanti dai potenti modelli di intelligenza artificiale di frontiera. Da allora, abbiamo collaborato con esperti dell’industria, del mondo accademico e del governo per approfondire la nostra comprensione dei rischi, delle valutazioni empiriche per testarli e delle mitigazioni che possiamo applicare. Abbiamo anche implementato il Framework nei nostri processi di sicurezza e governance per valutare modelli di frontiera come Gemini 2.0. Come risultato di questo lavoro, oggi pubblichiamo un aggiornamento Quadro di sicurezza delle frontiere.

Gli aggiornamenti chiave al framework includono:

  • Raccomandazioni sul livello di sicurezza per i nostri livelli di capacità critica (CCL), che aiutano a identificare dove sono necessari gli sforzi maggiori per contenere il rischio di esfiltrazione
  • Implementazione di una procedura più coerente per il modo in cui applichiamo le mitigazioni della distribuzione
  • Delineare un approccio leader del settore al rischio di allineamento ingannevole

Raccomandazioni per una maggiore sicurezza

Le mitigazioni della sicurezza aiutano a impedire ad attori non autorizzati di estrarre i pesi del modello. Ciò è particolarmente importante perché l’accesso ai pesi del modello consente la rimozione della maggior parte delle protezioni. Considerata la posta in gioco in vista di un’intelligenza artificiale sempre più potente, sbagliare potrebbe avere gravi implicazioni per la sicurezza. Il nostro Framework iniziale riconosceva la necessità di un approccio graduale alla sicurezza, consentendo l’implementazione di mitigazioni con diversi punti di forza da adattare al rischio. Questo approccio proporzionato garantisce inoltre il giusto equilibrio tra la mitigazione dei rischi e la promozione dell’accesso e dell’innovazione.

Da allora, abbiamo attinto ricerca più ampia per evolvere questi livelli di mitigazione della sicurezza e raccomandare un livello per ciascuno dei nostri CCL.* Queste raccomandazioni riflettono la nostra valutazione del livello minimo appropriato di sicurezza che il campo dell’IA di frontiera dovrebbe applicare a tali modelli in un CCL. Questo processo di mappatura ci aiuta a isolare i punti in cui sono necessarie le misure di mitigazione più forti per ridurre il rischio maggiore. In pratica, alcuni aspetti delle nostre pratiche di sicurezza potrebbero superare i livelli di base qui consigliati a causa del nostro forte atteggiamento generale in materia di sicurezza.

Questa seconda versione del Framework raccomanda livelli di sicurezza particolarmente elevati per le CCL nell’ambito della ricerca e sviluppo (R&S) sull’apprendimento automatico. Riteniamo che sarà importante per gli sviluppatori di intelligenza artificiale di frontiera avere una forte sicurezza per gli scenari futuri in cui i loro modelli potranno accelerare e/o automatizzare significativamente lo sviluppo dell’intelligenza artificiale stessa. Questo perché la proliferazione incontrollata di tali capacità potrebbe mettere a dura prova la capacità della società di gestire con attenzione e adattarsi al rapido ritmo dello sviluppo dell’IA.

Garantire la sicurezza continua dei sistemi IA all’avanguardia è una sfida globale condivisa e una responsabilità condivisa da tutti i principali sviluppatori. È importante sottolineare che ottenere questo risultato è un problema di azione collettiva: il valore sociale delle misure di mitigazione della sicurezza di ogni singolo attore sarà significativamente ridotto se non applicato su larga scala in tutto il campo. Costruire il tipo di capacità di sicurezza che riteniamo possa essere necessario richiederà tempo, quindi è fondamentale che tutti gli sviluppatori di intelligenza artificiale di frontiera lavorino collettivamente verso misure di sicurezza rafforzate e accelerino gli sforzi verso standard di settore comuni.

Procedura di mitigazione della distribuzione

Descriviamo inoltre le misure di mitigazione della distribuzione nel Framework che si concentrano sulla prevenzione dell’uso improprio delle capacità critiche nei sistemi che distribuiamo. Abbiamo aggiornato il nostro approccio di mitigazione della distribuzione per applicare un processo di mitigazione della sicurezza più rigoroso ai modelli che raggiungono un CCL in un dominio di rischio di uso improprio.

L’approccio aggiornato prevede i seguenti passaggi: in primo luogo, prepariamo una serie di mitigazioni eseguendo l’iterazione di una serie di misure di salvaguardia. Nel farlo, svilupperemo anche un safety case, ovvero un argomento valutabile che mostra come i rischi gravi associati ai CCL di un modello siano stati ridotti al minimo a un livello accettabile. L’organo di governo societario competente esamina quindi il caso di sicurezza, con l’implementazione della disponibilità generale che avviene solo se viene approvato. Infine, continuiamo a rivedere e aggiornare le misure di salvaguardia e il caso di sicurezza dopo l’implementazione. Abbiamo apportato questa modifica perché riteniamo che tutte le funzionalità critiche garantiscano questo processo di mitigazione completo.

Approccio al rischio di allineamento ingannevole

La prima iterazione del Framework si è concentrata principalmente sul rischio di uso improprio (ovvero, i rischi che gli autori delle minacce utilizzino le capacità critiche dei modelli distribuiti o esfiltrati per causare danni). Partendo da ciò, abbiamo adottato un approccio leader del settore per affrontare in modo proattivo i rischi di un allineamento ingannevole, ovvero il rischio che un sistema autonomo mini deliberatamente il controllo umano.

Un approccio iniziale a questa domanda si concentra sull’individuazione di quando i modelli potrebbero sviluppare una capacità di ragionamento strumentale di base che consenta loro di minare il controllo umano a meno che non siano in atto misure di salvaguardia. Per mitigare questo problema, esploriamo il monitoraggio automatizzato per rilevare l’uso illecito delle capacità di ragionamento strumentale.

Non prevediamo che il monitoraggio automatizzato rimanga sufficiente nel lungo termine se i modelli raggiungono livelli ancora più forti di ragionamento strumentale, quindi stiamo attivamente intraprendendo – e incoraggiando fortemente – ulteriori ricerche per sviluppare approcci di mitigazione per questi scenari. Anche se non sappiamo ancora quanto sia probabile che tali capacità si realizzino, riteniamo che sia importante che il campo si prepari a questa possibilità.

Conclusione

Continueremo a rivedere e sviluppare il Framework nel tempo, guidati dal ns Principi dell’intelligenza artificialeche delineano ulteriormente il nostro impegno per uno sviluppo responsabile.

Come parte dei nostri sforzi, continueremo a lavorare in collaborazione con i partner di tutta la società. Ad esempio, se valutiamo che un modello ha raggiunto un CCL che rappresenta un rischio assoluto e materiale per la sicurezza pubblica complessiva, miriamo a condividere le informazioni con le autorità governative appropriate dove ciò faciliterà lo sviluppo di un’IA sicura. Inoltre, l’ultimo Framework delinea una serie di potenziali aree per ulteriori ricerche – aree in cui non vediamo l’ora di collaborare con la comunità di ricerca, altre aziende e il governo.

Riteniamo che un approccio aperto, iterativo e collaborativo aiuterà a stabilire standard comuni e migliori pratiche per valutare la sicurezza dei futuri modelli di intelligenza artificiale, garantendo al contempo i loro benefici per l’umanità. IL Impegni per la sicurezza dell’intelligenza artificiale di Seoul Frontier ha segnato un passo importante verso questo sforzo collettivo e speriamo che il nostro quadro aggiornato sulla sicurezza delle frontiere contribuisca ulteriormente a tale progresso. Mentre guardiamo avanti all’AGI, ottenere questo risultato significherà affrontare questioni molto consequenziali – come le giuste soglie di capacità e mitigazioni – che richiederanno il contributo della società più ampia, compresi i governi.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *