
Stiamo esplorando le frontiere dell'AGI, dare la priorità alla prontezza, alla valutazione proattiva del rischio e alla collaborazione con la più ampia comunità di intelligenza artificiale.
Introduzione
L'intelligenza generale artificiale (AGI), AI che è capace quanto gli umani al massimo compiti, potrebbe essere qui nei prossimi anni.
Integrata con le capacità agenti, AGI potrebbe potenziare l'IA per comprendere, ragionare, pianificare ed eseguire azioni autonomamente. Tale progresso tecnologico fornirà alla società strumenti preziosi per affrontare le sfide globali critiche, tra cui la scoperta di droghe, la crescita economica e i cambiamenti climatici.
Ciò significa che possiamo aspettarci benefici tangibili per miliardi di persone. Ad esempio, consentendo diagnosi mediche più veloci e più accurate, potrebbe rivoluzionare l'assistenza sanitaria. Offrendo esperienze di apprendimento personalizzate, potrebbe rendere l'educazione più accessibile e coinvolgente. Migliorando l'elaborazione delle informazioni, AGI potrebbe aiutare a ridurre le barriere all'innovazione e alla creatività. Democratizzando l'accesso a strumenti e conoscenze avanzate, potrebbe consentire a una piccola organizzazione di affrontare sfide complesse precedentemente indirizzabili solo da grandi istituzioni ben finanziate.
Navigare il percorso verso l'AGI
Siamo ottimisti sul potenziale di AGI. Ha il potere di trasformare il nostro mondo, fungendo da catalizzatore per il progresso in molte aree della vita. Ma è essenziale con qualsiasi tecnologia così potente, che anche una piccola possibilità di danno deve essere presa sul serio e prevenuto.
La mitigazione delle sfide di sicurezza AGI richiede pianificazione, preparazione e collaborazione proattive. In precedenza, abbiamo introdotto il nostro approccio all'AGI nel Framework “Livelli di AGI” Il documento, che fornisce una prospettiva sulla classificazione delle capacità dei sistemi di intelligenza artificiale avanzati, la comprensione e il confronto delle loro prestazioni, la valutazione di potenziali rischi e la misurazione dei progressi verso l'IA più generale e capace.
Oggi stiamo condividendo le nostre opinioni sulla sicurezza e sulla sicurezza dell'AGI mentre navighiamo verso questa tecnologia di trasformazione. Questo nuovo documento, intitolato, un approccio alla sicurezza e alla sicurezza tecnica AGIè un punto di partenza per le conversazioni vitali con l'industria più ampia su come monitoliamo i progressi dell'AGI e garantiamo che si sviluppi in modo sicuro e responsabile.
Nel documento, descriviamo in dettaglio come stiamo adottando un approccio sistematico e completo alla sicurezza dell'AGI, esplorando quattro aree di rischio principali: abuso, disallineamento, incidenti e rischi strutturali, con una focalizzazione più profonda sull'abuso e il disallineamento.
Comprendere e affrontare il potenziale per uso improprio
L'abuso si verifica quando un essere umano usa deliberatamente un sistema di intelligenza artificiale per scopi dannosi.
Una migliore comprensione dei danni e delle mitigazioni di oggi continua a migliorare la nostra comprensione di gravi danni a lungo termine e come prevenirli.
Ad esempio, Uso improprio dell'IA generativa odierna Include la produzione di contenuti dannosi o la diffusione di informazioni imprecise. In futuro, i sistemi di intelligenza artificiale avanzati possono avere la capacità di influenzare in modo più significativo credenze e comportamenti pubblici in modi che potrebbero portare a conseguenze sociali non intenzionali.
La potenziale gravità di tale danno richiede misure proattive di sicurezza e sicurezza.
Come ci siamo dettagliati la cartaUn elemento chiave della nostra strategia è identificare e limitare l'accesso a capacità pericolose che potrebbero essere utilizzate in modo improprio, compresi quelli che consentono gli attacchi informatici.
Stiamo esplorando una serie di mitigazioni per prevenire l'uso improprio dell'intelligenza artificiale avanzata. Ciò include sofisticati meccanismi di sicurezza che potrebbero impedire agli attori dannosi di ottenere un accesso grezzo ai pesi del modello che consentono loro di bypassare i nostri guardrail di sicurezza; Mitigazioni che limitano il potenziale per uso improprio quando il modello viene distribuito; e la ricerca sulla modellazione delle minacce che aiutano a identificare le soglie di capacità in cui è necessaria una maggiore sicurezza. Inoltre, il nostro lancio di recente Framework di valutazione della sicurezza informatica Fa un passo avanti per aiutare a mitigare le minacce basate sull'intelligenza artificiale.
Ancora oggi valutiamo i nostri modelli più avanzati, come Gemelli, per il potenziale capacità pericolose prima della loro uscita. Nostro Frontier Safety Framework Ampia più a fondo il modo in cui valutiamo le capacità e impieghiamo mitigazioni, anche per la sicurezza informatica e i rischi di biosicurezza.
La sfida del disallineamento
Affinché AGI integri veramente le capacità umane, deve essere allineato con i valori umani. Il disallineamento si verifica quando il sistema AI persegue un obiettivo diverso dalle intenzioni umane.
In precedenza abbiamo mostrato come può sorgere disallineamento con i nostri esempi di gioco di specifichedove un'intelligenza artificiale trova una soluzione per raggiungere i suoi obiettivi, ma non nel modo previsto dall'uomo che lo istruisce e Genereralizzazione degli obiettivi.
Ad esempio, un sistema di intelligenza artificiale ha chiesto di prenotare i biglietti per un film potrebbe decidere di hackerare il sistema di biglietteria per ottenere posti già occupati – qualcosa che una persona che gli chiede di acquistare i posti potrebbe non prendere in considerazione.
Stiamo anche conducendo ricerche approfondite sul rischio di allineamento ingannevolecioè il rischio che un sistema di intelligenza artificiale diventasse consapevole che i suoi obiettivi non si allineano con le istruzioni umane e cercano deliberatamente di bypassare le misure di sicurezza messe in atto dagli umani per impedirgli di intraprendere azioni disallineate.
Contrastare il disallineamento
Il nostro obiettivo è quello di avere sistemi di intelligenza artificiale avanzati che sono addestrati a perseguire gli obiettivi giusti, quindi seguono accuratamente le istruzioni umane, impedendo all'IA che utilizza scorciatoie potenzialmente non etiche per raggiungere i suoi obiettivi.
Lo facciamo supervisione amplificataCioè essere in grado di dire se le risposte di un'intelligenza artificiale sono buone o cattive nel raggiungere quell'obiettivo. Sebbene questo sia relativamente facile ora, può diventare impegnativo quando l'IA ha capacità avanzate.
Ad esempio, anche gli esperti di Go non si rendevano conto di quanto buona mossa 37, una mossa che aveva una probabilità 1 su 10.000 di essere usata, quando era quando Alphago Per prima cosa lo ha giocato.
Per affrontare questa sfida, arruoliamo i sistemi di intelligenza artificiale per aiutarci a fornire feedback sulle loro risposte, come in discussione.
Una volta che possiamo dire se una risposta è buona, possiamo usarlo per costruire un sistema di intelligenza artificiale sicuro e allineato. Una sfida qui è capire su quali problemi o istanze per formare il sistema AI. Attraverso il lavoro su una formazione robusta, una stima dell'incertezza e altro ancora, possiamo coprire una serie di situazioni che un sistema di intelligenza artificiale incontrerà negli scenari del mondo reale, creando AI di cui si può fidare.
Attraverso un monitoraggio efficace e misure di sicurezza informatica stabilite, miriamo a mitigare i danni che possono verificarsi se i nostri sistemi di intelligenza artificiale perseguono obiettivi disallineati.
Il monitoraggio prevede l'utilizzo di un sistema di intelligenza artificiale, chiamato monitor, per rilevare azioni che non si allineano con i nostri obiettivi. È importante che il monitor sappia quando non sa se un'azione è sicura. Quando non è sicuro, dovrebbe rifiutare l'azione o contrassegnare l'azione per ulteriori revisioni.
Abilitando la trasparenza
Tutto ciò diventa più facile se il processo decisionale AI diventa più trasparente. Facciamo ricerche approfondite in interpretabilità con l'obiettivo di aumentare questa trasparenza.
Per facilitare ulteriormente questo, stiamo progettando sistemi di intelligenza artificiale più facili da capire.
Ad esempio, la nostra ricerca su Ottimizzazione miopica con approvazione nonmopica (Mona) Mira a garantire che qualsiasi pianificazione a lungo termine condotta dai sistemi di intelligenza artificiale rimanga comprensibile per l'uomo. Ciò è particolarmente importante man mano che la tecnologia migliora. Il nostro lavoro su Mona è il primo a dimostrare i vantaggi di sicurezza dell'ottimizzazione a breve termine negli LLM.
Costruire un ecosistema per la prontezza AGI
Guidato da Shane Legg, co-fondatore e capo scienziato AGI di Google DeepMind, il nostro Consiglio di sicurezza AGI (ASC) analizza il rischio AGI e le migliori pratiche, formulando raccomandazioni sulle misure di sicurezza. L'ASC lavora a stretto contatto con il Consiglio di responsabilità e sicurezza, il nostro gruppo di revisione interno copresieduto dal nostro COO Lila Ibrahim e direttore senior della responsabilità Helen King, per valutare la ricerca, i progetti e le collaborazioni AGI contro il nostro Principi AIconsulenza e collaborazione con team di ricerca e prodotti sul nostro lavoro con il massimo impatto.
Il nostro lavoro sulla sicurezza AGI completa la nostra profondità e ampiezza delle pratiche di responsabilità e sicurezza e ricerche che affrontano una vasta gamma di problemi, tra cui contenuti dannosi, pregiudizi e trasparenza. Continuiamo anche a sfruttare i nostri apprendimenti dalla sicurezza nelle agenzie, come il principio di avere un essere umano nel ciclo per verificare le azioni consequenziali, per informare il nostro approccio alla costruzione di AGI in modo responsabile.
Esternamente, stiamo lavorando per favorire la collaborazione con esperti, industria, governi, organizzazioni no profit e organizzazioni della società civile e adottare un approccio informato allo sviluppo di AGI.
Ad esempio, stiamo collaborando con organizzazioni di ricerca sulla sicurezza AI senza scopo di lucro, tra cui Apollo e Redwood Research, che hanno consigliato su una sezione di disallineamento dedicata nell'ultima versione della nostra Frontier Safety Framework.
Attraverso il dialogo in corso con le parti interessate di politica a livello globale, speriamo di contribuire al consenso internazionale sui problemi critici di sicurezza e sicurezza, incluso il modo in cui possiamo anticipare e prepararci per nuovi rischi.
I nostri sforzi includono lavorare con altri nel settore – tramite organizzazioni come il Forum modello di frontiera – Per condividere e sviluppare le migliori pratiche, nonché preziose collaborazioni con istituti di intelligenza artificiale sui test di sicurezza. In definitiva, riteniamo che un approccio internazionale coordinato alla governance sia fondamentale per garantire che la società beneficia di sistemi AI avanzati.
Educare ricercatori di AI ed esperti di sicurezza AGI è fondamentale per creare una solida base per il suo sviluppo. In quanto tale, abbiamo lanciato un Nuovo corso Sulla sicurezza AGI per studenti, ricercatori e professionisti interessati a questo argomento.
In definitiva, il nostro approccio alla sicurezza e alla sicurezza AGI funge da tabella di marcia vitale per affrontare le molte sfide che rimangono aperte. Non vediamo l'ora di collaborare con la più ampia comunità di ricerca AI per far avanzare l'AGI in modo responsabile e aiutarci a sbloccare gli immensi benefici di questa tecnologia per tutti.
Fonte: deepmind.google