Stiamo espandendo i nostri ambiti di rischio e perfezionando il nostro processo di valutazione del rischio.
Le scoperte dell’intelligenza artificiale stanno trasformando la nostra vita quotidiana, dai progressi della matematica, della biologia e dell’astronomia alla realizzazione del potenziale dell’istruzione personalizzata. Mentre costruiamo modelli di intelligenza artificiale sempre più potenti, ci impegniamo a sviluppare in modo responsabile le nostre tecnologie e ad adottare un approccio basato sull’evidenza per stare al passo con i rischi emergenti.
Oggi pubblichiamo la terza iterazione del nostro Quadro di sicurezza delle frontiere (FSF) – il nostro approccio più completo finora per identificare e mitigare i rischi gravi derivanti dai modelli di IA avanzati.
Questo aggiornamento si basa sulle nostre collaborazioni in corso con esperti di settore, mondo accademico e governo. Abbiamo anche incorporato le lezioni apprese dall’implementazione delle versioni precedenti e dall’evoluzione delle migliori pratiche nella sicurezza dell’IA di frontiera.
Principali aggiornamenti al Framework
Affrontare i rischi di manipolazione dannosa
Con questo aggiornamento, stiamo introducendo un livello di capacità critica (CCL)* incentrato sulla manipolazione dannosa, in particolare modelli di intelligenza artificiale con potenti capacità manipolative che potrebbero essere utilizzati in modo improprio per modificare sistematicamente e sostanzialmente convinzioni e comportamenti in contesti identificati ad alto rischio nel corso delle interazioni con il modello, con conseguente ragionevole danno previsto aggiuntivo su vasta scala.
Questa aggiunta si basa e rende operativa la ricerca che abbiamo svolto per identificare e valutare meccanismi che guidano la manipolazione dell’intelligenza artificiale generativa. In futuro, continueremo a investire in questo ambito per comprendere e misurare meglio i rischi associati alla manipolazione dannosa.
Adattare il nostro approccio ai rischi di disallineamento
Abbiamo inoltre ampliato il nostro Framework per affrontare potenziali scenari futuri in cui modelli di intelligenza artificiale disallineati potrebbero interferire con la capacità degli operatori di dirigere, modificare o interrompere le loro operazioni.
Mentre la nostra versione precedente del Framework includeva un approccio esplorativo incentrato sui CCL di ragionamento strumentale (ovvero, livelli di avviso specifici per quando un modello di intelligenza artificiale inizia a pensare in modo ingannevole), con questo aggiornamento ora forniamo ulteriori protocolli per i nostri CCL di ricerca e sviluppo sull’apprendimento automatico incentrati su modelli che potrebbero accelerare la ricerca e lo sviluppo di intelligenza artificiale a livelli potenzialmente destabilizzanti.
Oltre ai rischi di uso improprio derivanti da queste capacità, ci sono anche rischi di disallineamento derivanti dal potenziale di un modello di azione non diretta a questi livelli di capacità e dalla probabile integrazione di tali modelli nei processi di sviluppo e implementazione dell’IA.
Per affrontare i rischi posti dalle CCL, conduciamo revisioni dei casi di sicurezza prima dei lanci esterni quando vengono raggiunte le CCL pertinenti. Ciò comporta l’esecuzione di analisi dettagliate che dimostrino come i rischi siano stati ridotti a livelli gestibili. Per le CCL di ricerca e sviluppo avanzate di machine learning, anche le distribuzioni interne su larga scala possono comportare rischi, quindi stiamo ora espandendo questo approccio per includere tali distribuzioni.
Affinare il nostro processo di valutazione del rischio
Il nostro Framework è progettato per affrontare i rischi in proporzione alla loro gravità. Abbiamo affinato le nostre definizioni CCL appositamente per identificare le minacce critiche che garantiscono le strategie di governance e mitigazione più rigorose. Continuiamo ad applicare misure di sicurezza e mitigazione prima che vengano raggiunte soglie CCL specifiche e come parte del nostro approccio allo sviluppo di modelli standard.
Infine, in questo aggiornamento, entriamo più nel dettaglio nel nostro processo di valutazione del rischio. Basandosi sulle nostre principali valutazioni di allarme preventivo, descriviamo come conduciamo valutazioni olistiche che includono l’identificazione sistematica del rischio, analisi complete delle capacità del modello e determinazioni esplicite dell’accettabilità del rischio.
Promuovere il nostro impegno per la sicurezza delle frontiere
Questo ultimo aggiornamento al nostro Frontier Safety Framework rappresenta il nostro impegno costante ad adottare un approccio scientifico e basato sull’evidenza per monitorare e stare al passo con i rischi dell’IA man mano che le capacità avanzano verso l’AGI. Espandendo i nostri ambiti di rischio e rafforzando i nostri processi di valutazione del rischio, miriamo a garantire che l’intelligenza artificiale trasformativa avvantaggi l’umanità, riducendo al minimo i potenziali danni.
Il nostro Quadro continuerà ad evolversi sulla base di nuove ricerche, input delle parti interessate e lezioni derivanti dall’implementazione. Rimaniamo impegnati a lavorare in collaborazione tra l’industria, il mondo accademico e il governo.
Il percorso verso un’AGI vantaggiosa richiede non solo scoperte tecniche, ma anche quadri solidi per mitigare i rischi lungo il percorso. Ci auguriamo che il nostro quadro aggiornato sulla sicurezza delle frontiere contribuisca in modo significativo a questo sforzo collettivo.
Fonte: deepmind.google
