Presentazione del quadro di sicurezza delle frontiere

 | Intelligenza-Artificiale

Domini di rischio e livelli di mitigazione

La nostra serie iniziale di livelli di capacità critici si basa sull’indagine di quattro ambiti: autonomia, biosicurezza, sicurezza informatica e ricerca e sviluppo (R&S) sull’apprendimento automatico. La nostra ricerca iniziale suggerisce che le capacità dei futuri modelli di fondazione hanno maggiori probabilità di comportare gravi rischi in questi ambiti.

Per quanto riguarda l’autonomia, la sicurezza informatica e la biosicurezza, il nostro obiettivo principale è valutare il grado in cui gli autori delle minacce potrebbero utilizzare un modello con capacità avanzate per svolgere attività dannose con gravi conseguenze. Per la ricerca e sviluppo sull’apprendimento automatico, l’attenzione è posta sulla questione se i modelli con tali capacità consentirebbero la diffusione di modelli con altre capacità critiche o consentirebbero un’escalation rapida e ingestibile delle capacità di intelligenza artificiale. Man mano che conduciamo ulteriori ricerche su questi e altri ambiti di rischio, ci aspettiamo che questi CCL si evolvano e che vengano aggiunti diversi CCL a livelli più alti o in altri ambiti di rischio.

Per consentirci di adattare la forza delle mitigazioni a ciascuna CCL, abbiamo anche delineato una serie di mitigazioni relative alla sicurezza e alla distribuzione. Le mitigazioni di sicurezza di livello più alto comportano una maggiore protezione contro l’esfiltrazione dei pesi del modello, mentre le mitigazioni di distribuzione di livello più alto consentono una gestione più rigorosa delle funzionalità critiche. Queste misure, tuttavia, potrebbero anche rallentare il tasso di innovazione e ridurre l’ampia accessibilità delle capacità. Trovare l’equilibrio ottimale tra la mitigazione dei rischi e la promozione dell’accesso e dell’innovazione è fondamentale per lo sviluppo responsabile dell’IA. Valutando i benefici complessivi rispetto ai rischi e tenendo conto del contesto di sviluppo e implementazione del modello, miriamo a garantire un progresso responsabile dell’intelligenza artificiale che sblocchi il potenziale di trasformazione proteggendo al contempo da conseguenze indesiderate.

Investire nella scienza

La ricerca alla base del Framework è agli inizi e sta progredendo rapidamente. Abbiamo investito in modo significativo nel nostro Frontier Safety Team, che ha coordinato lo sforzo interfunzionale alla base del nostro Framework. Il loro compito è quello di far progredire la scienza della valutazione del rischio di frontiera e perfezionare il nostro quadro sulla base delle nostre conoscenze migliorate.

Il team ha sviluppato una suite di valutazione per valutare i rischi derivanti dalle capacità critiche, enfatizzando in particolare gli agenti LLM autonomi, e l’ha testata su strada sui nostri modelli all’avanguardia. Loro documento recente descrivendo queste valutazioni si esplorano anche i meccanismi che potrebbero costituire un futuro”sistema di allerta precoceDescrive gli approcci tecnici per valutare quanto un modello è vicino al successo in un compito che attualmente non riesce a svolgere e include anche previsioni sulle capacità future di un team di esperti previsori.

Rimanere fedeli ai nostri principi sull’intelligenza artificiale

Esamineremo e svilupperemo periodicamente il Framework. In particolare, mentre sperimentiamo il Framework e approfondiamo la nostra comprensione dei domini di rischio, delle CCL e dei contesti di implementazione, continueremo il nostro lavoro nel calibrare misure di mitigazione specifiche per le CCL.

Al centro del nostro lavoro c’è Google Principi dell’intelligenza artificialeche ci impegnano a perseguire benefici diffusi mitigando i rischi. Man mano che i nostri sistemi migliorano e le loro capacità aumentano, misure come il Frontier Safety Framework garantiranno che le nostre pratiche continuino a soddisfare questi impegni.

Non vediamo l’ora di lavorare con altri attori dell’industria, del mondo accademico e del governo per sviluppare e perfezionare il Framework. Ci auguriamo che la condivisione dei nostri approcci faciliti il ​​lavoro con altri per concordare standard e migliori pratiche per valutare la sicurezza delle future generazioni di modelli di intelligenza artificiale.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *