La nostra prossima iterazione dell'FSF stabilisce protocolli di sicurezza più forti sul percorso verso l'AGI
L'intelligenza artificiale è uno strumento potente che sta aiutando a sbloccare nuove scoperte e fare progressi significativi su alcune delle maggiori sfide del nostro tempo, dal cambiamento climatico alla scoperta di droghe. Ma man mano che il suo sviluppo avanza, le capacità avanzate possono presentare nuovi rischi.
Ecco perché noi introdotto La prima iterazione del nostro quadro di sicurezza di frontiera dell'anno scorso: una serie di protocolli per aiutarci a rimanere al passo con possibili rischi gravi da potenti modelli di AI di frontiera. Da allora, abbiamo collaborato con esperti nell'industria, nel mondo accademico e nel governo per approfondire la nostra comprensione dei rischi, le valutazioni empiriche per testare per loro e le mitigazioni che possiamo applicare. Abbiamo anche implementato il framework nei nostri processi di sicurezza e governance per la valutazione di modelli di frontiera come Gemini 2.0. Come risultato di questo lavoro, oggi stiamo pubblicando un aggiornamento Frontier Safety Framework.
Gli aggiornamenti chiave al framework includono:
- Raccomandazioni sul livello di sicurezza per i nostri livelli di capacità critica (CCLS), aiutando a identificare dove sono necessari i più forti sforzi per frenare il rischio di esfiltrazione
- Implementazione di una procedura più coerente per il modo in cui applichiamo le mitigazioni di distribuzione
- Delineare un approccio leader del settore al rischio di allineamento ingannevole
Raccomandazioni per una maggiore sicurezza
Le mitigazioni della sicurezza aiutano a impedire agli attori non autorizzati di esfiltranti pesi del modello. Ciò è particolarmente importante perché l'accesso ai pesi del modello consente la rimozione della maggior parte delle garanzie. Data la posta in gioco coinvolta mentre guardiamo avanti a un'intelligenza artificiale sempre più potente, sbagliare potrebbe avere serie implicazioni per la sicurezza. Il nostro framework iniziale ha riconosciuto la necessità di un approccio a più livelli alla sicurezza, consentendo l'implementazione di mitigazioni con punti di forza variabili per adattarsi al rischio. Questo approccio proporzionale garantisce anche che otteniamo l'equilibrio tra i rischi attenuanti e la promozione dell'accesso e dell'innovazione.
Da allora, abbiamo disegnato ricerca più ampia Per evolvere questi livelli di mitigazione della sicurezza e raccomandare un livello per ciascuno dei nostri CCL.* Queste raccomandazioni riflettono la nostra valutazione del livello minimo appropriato di sicurezza Il campo dell'IA di frontiera dovrebbe applicarsi a tali modelli in un CCL. Questo processo di mappatura ci aiuta a isolare laddove le mitigazioni più forti sono necessarie per ridurre il rischio maggiore. In pratica, alcuni aspetti delle nostre pratiche di sicurezza possono superare i livelli di base raccomandati qui a causa della nostra forte postura di sicurezza complessiva.
Questa seconda versione del framework raccomanda livelli di sicurezza particolarmente elevati per i CCL all'interno del dominio della ricerca e dello sviluppo dell'apprendimento automatico (R&S). Riteniamo che sarà importante per gli sviluppatori di AI di frontiera avere una forte sicurezza per gli scenari futuri quando i loro modelli possono accelerare in modo significativo e/o automatizzare lo sviluppo dell'IA stesso. Questo perché la proliferazione incontrollata di tali capacità potrebbe sfidare in modo significativo la capacità della società di gestire e adattarsi attentamente al rapido ritmo dello sviluppo dell'IA.
Garantire la continua sicurezza dei sistemi di intelligenza artificiale all'avanguardia è una sfida globale condivisa e una responsabilità condivisa di tutti gli sviluppatori principali. È importante sottolineare che ottenere questo diritto è un problema di azione collettiva: il valore sociale delle mitigazioni di sicurezza di ogni singolo attore sarà significativamente ridotto se non ampiamente applicato in tutto il campo. Costruire il tipo di capacità di sicurezza che riteniamo potrebbe essere necessaria richiederà del tempo, quindi è fondamentale che tutti gli sviluppatori di AI di frontiera lavorino collettivamente per le misure di sicurezza elevate e accelerano gli sforzi per gli standard del settore comuni.
Procedura di mitigazione della distribuzione
Descriviamo anche le mitigazioni di distribuzione nel framework che si concentrano sulla prevenzione dell'uso improprio delle capacità critiche nei sistemi che distribuiamo. Abbiamo aggiornato il nostro approccio di mitigazione della distribuzione per applicare un processo di mitigazione della sicurezza più rigoroso ai modelli che raggiungono un CCL in un dominio a rischio di uso improprio.
L'approccio aggiornato prevede i seguenti passaggi: Innanzitutto, prepariamo una serie di mitigazioni ripetute su una serie di garanzie. Mentre lo facciamo, svilupperemo anche un caso di sicurezza, che è un argomento valutabile che mostra come i gravi rischi associati ai CCL di un modello sono stati ridotti al minimo a un livello accettabile. L'organo di governo societario appropriato esamina quindi il caso di sicurezza, con la distribuzione di disponibilità generale che si verifica solo se è approvato. Infine, continuiamo a rivedere e aggiornare le garanzie e il caso di sicurezza dopo la distribuzione. Abbiamo apportato questa modifica perché riteniamo che tutte le capacità critiche garantiscano questo processo di mitigazione approfondito.
Approccio al rischio di allineamento ingannevole
La prima iterazione del framework si è concentrata principalmente sul rischio di uso improprio (cioè i rischi degli attori delle minacce che utilizzano capacità critiche di modelli distribuiti o esfiltrati per causare danni). Basandoci su questo, abbiamo adottato un approccio leader del settore per affrontare in modo proattivo i rischi di allineamento ingannevole, cioè il rischio di un sistema autonomo che minano deliberatamente il controllo umano.
Un approccio iniziale a questa domanda si concentra sul rilevamento quando i modelli potrebbero sviluppare una capacità di ragionamento strumentale di base che permettono di minare il controllo umano a meno che non siano in atto garanzie. Per mitigarlo, esploriamo il monitoraggio automatizzato per rilevare l'uso illecito delle capacità di ragionamento strumentale.
Non prevediamo che il monitoraggio automatizzato rimanga sufficiente a lungo termine se i modelli raggiungono livelli ancora più forti di ragionamento strumentale, quindi intraprendiamo attivamente-e fortemente incoraggianti-ulteriori ricerche che sviluppano approcci di mitigazione per questi scenari. Anche se non sappiamo ancora quanto siano probabili tali capacità, riteniamo che sia importante che il campo si prepara alla possibilità.
Conclusione
Continueremo a rivedere e sviluppare il framework nel tempo, guidato dal nostro Principi AIche delinea ulteriormente il nostro impegno per lo sviluppo responsabile.
Come parte dei nostri sforzi, continueremo a lavorare in collaborazione con i partner della società. Ad esempio, se valutiamo che un modello ha raggiunto un CCL che comporta un rischio non mitigato e materiale per la sicurezza pubblica generale, miriamo a condividere informazioni con autorità governative adeguate in cui faciliterà lo sviluppo di AI sicura. Inoltre, l'ultimo quadro delinea una serie di potenziali aree per ulteriori ricerche: aree in cui non vediamo l'ora di collaborare con la comunità di ricerca, altre società e governo.
Riteniamo che un approccio aperto, iterativo e collaborativo aiuterà a stabilire standard e migliori pratiche comuni per valutare la sicurezza dei futuri modelli di intelligenza artificiale assicurando i loro benefici per l'umanità. IL Seoul Frontier AI Impegni di sicurezza Segnato un importante passo verso questo sforzo collettivo – e speriamo che il nostro quadro di sicurezza di frontiera aggiornato contribuisca ulteriormente a tale progresso. Mentre guardiamo avanti all'AGI, ottenere questo diritto significherà affrontare domande molto consequenziali – come le giuste soglie e mitigazioni di capacità – quelle che richiederanno il contributo di una società più ampia, compresi i governi.
Fonte: deepmind.google