Il nostro approccio all'analisi e alla mitigazione dei rischi futuri posti dai modelli di intelligenza artificiale avanzati

Google DeepMind ha costantemente ampliato i confini dell'intelligenza artificiale, sviluppando modelli che hanno trasformato la nostra comprensione di ciò che è possibile. Riteniamo che la tecnologia dell’intelligenza artificiale all’orizzonte fornirà alla società strumenti preziosi per aiutare ad affrontare le sfide globali cruciali, come il cambiamento climatico, la scoperta di farmaci e la produttività economica. Allo stesso tempo, riconosciamo che, man mano che continuiamo a far avanzare la frontiera delle capacità dell’intelligenza artificiale, queste scoperte potrebbero eventualmente comportare nuovi rischi oltre a quelli posti dai modelli attuali.

Oggi presentiamo il nostro Quadro di sicurezza delle frontiere – una serie di protocolli per identificare in modo proattivo le future capacità di intelligenza artificiale che potrebbero causare gravi danni e mettere in atto meccanismi per rilevarli e mitigarli. Il nostro Framework si concentra sui rischi gravi derivanti da potenti capacità a livello di modello, come agenzie eccezionali o sofisticate capacità informatiche. È progettato per integrare la nostra ricerca sull'allineamento, che addestra i modelli ad agire in conformità con i valori umani e gli obiettivi sociali, e la suite esistente di responsabilità e sicurezza dell'IA di Google pratiche.

Il Framework è esplorativo e ci aspettiamo che si evolva in modo significativo man mano che impariamo dalla sua implementazione, approfondiamo la nostra comprensione dei rischi e delle valutazioni dell’IA e collaboriamo con l’industria, il mondo accademico e il governo. Anche se questi rischi sono al di fuori della portata dei modelli attuali, speriamo che l’implementazione e il miglioramento del Framework ci aiutino a prepararci ad affrontarli. Il nostro obiettivo è che questo quadro iniziale sia pienamente attuato entro l’inizio del 2025.

Il quadro

La prima versione del Framework annunciata oggi si basa sul nostro ricerca SU valutare capacità critiche nei modelli di frontiera e segue l'approccio emergente di Scalabilità responsabile delle capacità. Il Framework ha tre componenti chiave:

  1. Identificare le capacità che un modello può avere con il rischio di gravi danni. Per fare ciò, effettuiamo ricerche sui percorsi attraverso i quali un modello potrebbe causare gravi danni in ambiti ad alto rischio, quindi determiniamo il livello minimo di capacità che un modello deve avere per svolgere un ruolo nel causare tale danno. Chiamiamo questi “livelli di capacità critica” (CCL) e guidano il nostro approccio di valutazione e mitigazione.
  2. Valutare periodicamente i nostri modelli di frontiera per rilevare quando raggiungono questi livelli di capacità critici. Per fare ciò, svilupperemo suite di valutazioni del modello, chiamate “valutazioni di allarme rapido”, che ci avviseranno quando un modello si sta avvicinando a un CCL e le eseguiremo con una frequenza tale da potercene accorgere prima che venga raggiunta tale soglia.
  3. Applicazione di un piano di mitigazione quando un modello supera le nostre valutazioni di preavviso. Ciò dovrebbe tenere conto dell’equilibrio generale tra benefici e rischi e dei contesti di implementazione previsti. Queste mitigazioni si concentreranno principalmente sulla sicurezza (prevenendo l’esfiltrazione di modelli) e sulla distribuzione (prevenendo l’uso improprio delle capacità critiche).

Domini di rischio e livelli di mitigazione

La nostra serie iniziale di livelli di capacità critici si basa sull'indagine di quattro ambiti: autonomia, biosicurezza, sicurezza informatica e ricerca e sviluppo (R&S) sull'apprendimento automatico. La nostra ricerca iniziale suggerisce che le capacità dei futuri modelli di fondazione hanno maggiori probabilità di comportare gravi rischi in questi ambiti.

Per quanto riguarda l’autonomia, la sicurezza informatica e la biosicurezza, il nostro obiettivo principale è valutare il grado in cui gli autori delle minacce potrebbero utilizzare un modello con capacità avanzate per svolgere attività dannose con gravi conseguenze. Per la ricerca e sviluppo sull’apprendimento automatico, l’attenzione è posta sulla questione se i modelli con tali capacità consentirebbero la diffusione di modelli con altre capacità critiche o consentirebbero un’escalation rapida e ingestibile delle capacità di intelligenza artificiale. Man mano che conduciamo ulteriori ricerche su questi e altri ambiti di rischio, ci aspettiamo che questi CCL si evolvano e che vengano aggiunti diversi CCL a livelli più alti o in altri ambiti di rischio.

Per consentirci di adattare la forza delle mitigazioni a ciascuna CCL, abbiamo anche delineato una serie di mitigazioni relative alla sicurezza e alla distribuzione. Le mitigazioni di sicurezza di livello più alto comportano una maggiore protezione contro l'esfiltrazione dei pesi del modello, mentre le mitigazioni di distribuzione di livello più alto consentono una gestione più rigorosa delle funzionalità critiche. Queste misure, tuttavia, potrebbero anche rallentare il tasso di innovazione e ridurre l’ampia accessibilità delle capacità. Trovare l’equilibrio ottimale tra la mitigazione dei rischi e la promozione dell’accesso e dell’innovazione è fondamentale per lo sviluppo responsabile dell’IA. Valutando i benefici complessivi rispetto ai rischi e tenendo conto del contesto di sviluppo e implementazione del modello, miriamo a garantire un progresso responsabile dell’IA che sblocchi il potenziale di trasformazione salvaguardando allo stesso tempo da conseguenze indesiderate.

Investire nella scienza

La ricerca alla base del Framework è agli inizi e sta progredendo rapidamente. Abbiamo investito in modo significativo nel nostro Frontier Safety Team, che ha coordinato lo sforzo interfunzionale alla base del nostro Framework. Il loro compito è quello di far progredire la scienza della valutazione del rischio di frontiera e perfezionare il nostro quadro sulla base delle nostre conoscenze migliorate.

Il team ha sviluppato una suite di valutazione per valutare i rischi derivanti dalle capacità critiche, enfatizzando in particolare gli agenti LLM autonomi, e l'ha testata su strada sui nostri modelli all'avanguardia. Loro documento recente descrivendo queste valutazioni si esplorano anche i meccanismi che potrebbero costituire un futuro”sistema di allerta precoce”. Descrive gli approcci tecnici per valutare quanto un modello sia vicino al successo in un compito che attualmente non riesce a svolgere e include anche previsioni sulle capacità future di un team di esperti previsori.

Rimanere fedeli ai nostri principi sull'intelligenza artificiale

Esamineremo e svilupperemo periodicamente il Framework. In particolare, mentre sperimentiamo il Framework e approfondiamo la nostra comprensione dei domini di rischio, delle CCL e dei contesti di implementazione, continueremo il nostro lavoro nel calibrare misure di mitigazione specifiche per le CCL.

Al centro del nostro lavoro c'è Google Principi dell'intelligenza artificialeche ci impegnano a perseguire benefici diffusi mitigando i rischi. Man mano che i nostri sistemi migliorano e le loro capacità aumentano, misure come il Frontier Safety Framework garantiranno che le nostre pratiche continuino a soddisfare questi impegni.

Non vediamo l’ora di lavorare con altri attori dell’industria, del mondo accademico e del governo per sviluppare e perfezionare il Framework. Ci auguriamo che la condivisione dei nostri approcci faciliti il ​​lavoro con altri per concordare standard e migliori pratiche per valutare la sicurezza delle future generazioni di modelli di intelligenza artificiale.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *