
Stiamo ampliando i nostri domini di rischio e perfezionando il nostro processo di valutazione del rischio.
Le scoperte di AI stanno trasformando la nostra vita quotidiana, dall’avanzamento della matematica, della biologia e dell’astronomia alla realizzazione del potenziale dell’educazione personalizzata. Man mano che costruiamo modelli di intelligenza artificiale sempre più potenti, siamo impegnati a sviluppare responsabilmente le nostre tecnologie e ad adottare un approccio basato sull’evidenza per stare al passo con i rischi emergenti.
Oggi stiamo pubblicando la terza iterazione del nostro Frontier Safety Framework (FSF) – Il nostro approccio più completo per identificare e mitigare i gravi rischi da modelli AI avanzati.
Questo aggiornamento si basa sulle nostre collaborazioni in corso con esperti in tutto il settore, il mondo accademico e il governo. Abbiamo anche incorporato le lezioni apprese dall’implementazione di versioni precedenti e dall’evoluzione delle migliori pratiche nella sicurezza di AI di frontiera.
Aggiornamenti chiave al framework
Affrontare i rischi di manipolazione dannosa
Con questo aggiornamento, stiamo introducendo un livello di capacità critica (CCL)* focalizzato sulla manipolazione dannosa, in particolare, i modelli di intelligenza artificiale con potenti capacità manipolative che potrebbero essere utilizzate in modo improprio per cambiare sistematicamente e sostanzialmente credenze e comportamenti identificati ad alto contenuto di colpi nel corso del corso delle interazioni con il modello, con conseguenti ulteriori danni previsti su gravi scala.
Questa aggiunta si basa e operativa di ricerca che abbiamo fatto per identificare e valutare Meccanismi che guidano la manipolazione dall’intelligenza artificiale generativa. Andando avanti, continueremo a investire in questo settore per comprendere meglio e misurare i rischi associati alla manipolazione dannosa.
Adattare il nostro approccio ai rischi di disallineamento
Abbiamo anche ampliato il nostro framework per affrontare potenziali scenari futuri in cui i modelli di intelligenza artificiale disallineati potrebbero interferire con la capacità degli operatori di dirigere, modificare o chiudere le loro operazioni.
Mentre la nostra versione precedente del framework includeva un approccio esplorativo incentrato sul ragionamento strumentale CCLS (cioè, i livelli di avvertimento specifici per quando un modello di intelligenza artificiale inizia a pensare in modo ingannevole), con questo aggiornamento ora forniamo ulteriori protocolli per la nostra ricerca sull’apprendimento automatico e la nostra CCLS di sviluppo focalizzati su modelli focalizzati su modelli focalizzati su livelli potenzialmente dedicabili.
Oltre ai rischi di uso improprio derivanti da queste capacità, vi sono anche rischi di disallineamento derivanti dal potenziale di un modello per un’azione non diretta a questi livelli di capacità e dalla probabile integrazione di tali modelli nello sviluppo dell’IA e nei processi di distribuzione.
Per affrontare i rischi posti dai CCL, conduciamo revisioni dei casi di sicurezza prima dei lanci esterni quando si raggiungono CCL pertinenti. Ciò comporta l’esecuzione di analisi dettagliate che dimostrano come i rischi sono stati ridotti a livelli gestibili. Per la ricerca avanzata per la ricerca e lo sviluppo dell’apprendimento automatico, le distribuzioni interne su larga scala possono anche comportare rischi, quindi ora stiamo espandendo questo approccio per includere tali distribuzioni.
Affilando il nostro processo di valutazione del rischio
Il nostro framework è progettato per affrontare i rischi in proporzione alla loro gravità. Abbiamo affilato le nostre definizioni CCL specificamente per identificare le minacce critiche che garantiscono le strategie di governance e mitigazione più rigorose. Continuiamo ad applicare mitigazioni di sicurezza e di sicurezza prima che vengano raggiunte specifiche soglie CCL e come parte del nostro approccio di sviluppo del modello standard.
Infine, in questo aggiornamento, entriamo in dettaglio sul nostro processo di valutazione del rischio. Basandosi sulle nostre valutazioni di base per le prime ore, descriviamo come conduciamo valutazioni olistiche che includono l’identificazione sistematica del rischio, analisi complete delle capacità del modello e determinazioni esplicite dell’accettabilità del rischio.
Far avanzare il nostro impegno per la sicurezza di frontiera
Quest’ultimo aggiornamento al nostro quadro di sicurezza di frontiera rappresenta il nostro continuo impegno nel adottare un approccio scientifico e basato sull’evidenza al monitoraggio e al sospensione dei rischi di intelligenza artificiale mentre le capacità avanzano verso l’AGI. Espandendo i nostri domini di rischio e rafforzando i nostri processi di valutazione del rischio, miriamo a garantire che l’intelligenza artificiale trasformativa avvantaggia l’umanità, riducendo al minimo i potenziali danni.
Il nostro framework continuerà a evolversi in base a nuove ricerche, input degli stakeholder e lezioni dall’implementazione. Rimaniamo impegnati a lavorare in collaborazione in tutto il settore, il mondo accademico e il governo.
Il percorso verso l’AGI benefica richiede non solo scoperte tecniche, ma anche framework robusti per mitigare i rischi lungo la strada. Speriamo che il nostro framework di sicurezza di frontiera aggiornato contribuisca in modo significativo a questo sforzo collettivo.
Fonte: deepmind.google