Intraprendere un percorso responsabile verso l’AGI

 | Intelligenza-Artificiale

Comprendere e affrontare il potenziale di uso improprio

Si verifica un abuso quando un essere umano utilizza deliberatamente un sistema di intelligenza artificiale per scopi dannosi.

Una migliore comprensione dei danni attuali e delle loro mitigazioni continua a migliorare la nostra comprensione dei danni gravi a lungo termine e di come prevenirli.

Ad esempio, uso improprio dell’intelligenza artificiale generativa odierna include la produzione di contenuti dannosi o la diffusione di informazioni inesatte. In futuro, i sistemi avanzati di intelligenza artificiale potrebbero avere la capacità di influenzare in modo più significativo le convinzioni e i comportamenti del pubblico in modi che potrebbero portare a conseguenze sociali indesiderate.

La potenziale gravità di tale danno richiede misure proattive di sicurezza e protezione.

Come dettagliamo in la cartaun elemento chiave della nostra strategia è identificare e limitare l’accesso a capacità pericolose che potrebbero essere utilizzate in modo improprio, comprese quelle che consentono attacchi informatici.

Stiamo esplorando una serie di soluzioni per prevenire l’uso improprio dell’intelligenza artificiale avanzata. Ciò include sofisticati meccanismi di sicurezza che potrebbero impedire ad autori malintenzionati di ottenere un accesso diretto ai pesi del modello che consentano loro di aggirare le nostre barriere di sicurezza; mitigazioni che limitano il potenziale di uso improprio quando il modello viene implementato; e la ricerca sulla modellazione delle minacce che aiuta a identificare le soglie di capacità in cui è necessaria una maggiore sicurezza. Inoltre, il nostro lanciato di recente quadro di valutazione della sicurezza informatica compie un ulteriore passo avanti in questo lavoro per contribuire a mitigare le minacce basate sull’intelligenza artificiale.

Ancora oggi valutiamo regolarmente il potenziale dei nostri modelli più avanzati, come Gemini capacità pericolose. Nostro Quadro di sicurezza delle frontiere approfondisce il modo in cui valutiamo le capacità e utilizziamo misure di mitigazione, anche per i rischi di sicurezza informatica e biosicurezza.

La sfida del disallineamento

Affinché l’AGI possa realmente integrare le capacità umane, deve essere allineata ai valori umani. Il disallineamento si verifica quando il sistema di intelligenza artificiale persegue un obiettivo diverso dalle intenzioni umane.

Abbiamo precedentemente mostrato come può verificarsi un disallineamento con i nostri esempi di gioco delle specifichedove un’intelligenza artificiale trova una soluzione per raggiungere i suoi obiettivi, ma non nel modo inteso dall’essere umano che la istruisce, e generalizzazione errata dell’obiettivo.

Ad esempio, un sistema di intelligenza artificiale a cui viene chiesto di prenotare i biglietti per un film potrebbe decidere di hackerare il sistema di biglietteria per ottenere posti già occupati, cosa che una persona che gli chiede di acquistare i posti potrebbe non prendere in considerazione.

Stiamo anche conducendo ricerche approfondite sul rischio di allineamento ingannevolevale a dire il rischio che un sistema di intelligenza artificiale si renda conto che i suoi obiettivi non sono in linea con le istruzioni umane e cerchi deliberatamente di aggirare le misure di sicurezza messe in atto dagli esseri umani per impedirgli di intraprendere azioni disallineate.

Contrastare il disallineamento

Il nostro obiettivo è disporre di sistemi di intelligenza artificiale avanzati addestrati a perseguire gli obiettivi giusti, in modo da seguire accuratamente le istruzioni umane, impedendo all’intelligenza artificiale di utilizzare scorciatoie potenzialmente non etiche per raggiungere i propri obiettivi.

Lo facciamo attraverso una supervisione amplificata, ovvero essendo in grado di dire se le risposte di un’intelligenza artificiale sono buone o cattive nel raggiungimento di tale obiettivo. Anche se ora questo è relativamente facile, può diventare impegnativo quando l’intelligenza artificiale ha capacità avanzate.

Ad esempio, anche gli esperti di Go non si rendevano conto di quanto fosse buona la Mossa 37, una mossa che aveva una probabilità su 10.000 di essere utilizzata, quando AlphaGo l’ho giocato per la prima volta.

Per affrontare questa sfida, ci avvaliamo degli stessi sistemi di intelligenza artificiale per aiutarci a fornire feedback sulle loro risposte, come in discussione.

Una volta che possiamo stabilire se una risposta è valida, possiamo usarla per costruire un sistema di intelligenza artificiale sicuro e allineato. La sfida qui è capire su quali problemi o istanze addestrare il sistema di intelligenza artificiale. Attraverso un lavoro su una formazione solida, sulla stima dell’incertezza e altro ancora, possiamo coprire una serie di situazioni che un sistema di intelligenza artificiale incontrerà in scenari del mondo reale, creando un’intelligenza artificiale di cui ci si può fidare.

Attraverso un monitoraggio efficace e misure di sicurezza informatica consolidate, miriamo a mitigare i danni che potrebbero verificarsi se i nostri sistemi di intelligenza artificiale perseguissero obiettivi disallineati.

Il monitoraggio prevede l’utilizzo di un sistema di intelligenza artificiale, chiamato monitor, per rilevare azioni che non sono in linea con i nostri obiettivi. È importante che il monitor sappia quando non sa se un’azione è sicura. Quando non è sicuro, dovrebbe rifiutare l’azione o contrassegnarla per un’ulteriore revisione.

Abilitazione della trasparenza

Tutto ciò diventa più semplice se il processo decisionale dell’IA diventa più trasparente. Effettuiamo ricerche approfondite in interpretabilità con l’obiettivo di aumentare tale trasparenza.

Per facilitare ulteriormente tutto ciò, stiamo progettando sistemi di intelligenza artificiale più facili da comprendere.

Ad esempio, la nostra ricerca su Ottimizzazione miopica con approvazione non miopica (MONA) mira a garantire che qualsiasi pianificazione a lungo termine effettuata dai sistemi di intelligenza artificiale rimanga comprensibile per gli esseri umani. Ciò è particolarmente importante man mano che la tecnologia migliora. Il nostro lavoro su MONA è il primo a dimostrare i vantaggi in termini di sicurezza derivanti dall’ottimizzazione a breve termine negli LLM.

Costruire un ecosistema per la preparazione all’AGI

Guidato da Shane Legg, cofondatore e capo scienziato AGI presso Google DeepMind, il nostro AGI Safety Council (ASC) analizza i rischi e le migliori pratiche AGI, formulando raccomandazioni sulle misure di sicurezza. L’ASC lavora a stretto contatto con il Consiglio di responsabilità e sicurezza, il nostro gruppo di revisione interno co-presieduto dal nostro COO Lila Ibrahim e dal Direttore senior della responsabilità Helen King, per valutare la ricerca, i progetti e le collaborazioni di AGI rispetto ai nostri Principi dell’intelligenza artificialeconsulenza e collaborazione con team di ricerca e di prodotto sul nostro lavoro a massimo impatto.

Il nostro lavoro sulla sicurezza AGI integra la nostra profondità e ampiezza di responsabilità, pratiche di sicurezza e ricerca che affrontano un’ampia gamma di questioni, inclusi contenuti dannosi, pregiudizi e trasparenza. Continuiamo inoltre a sfruttare gli insegnamenti tratti dalla sicurezza negli agenti, come il principio di avere un essere umano nel circuito per verificare le azioni consequenziali, per informare il nostro approccio alla creazione di AGI in modo responsabile.

Esternamente, stiamo lavorando per promuovere la collaborazione con esperti, industria, governi, organizzazioni non profit e organizzazioni della società civile e adottare un approccio informato allo sviluppo dell’AGI.

Ad esempio, stiamo collaborando con organizzazioni no-profit di ricerca sulla sicurezza dell’intelligenza artificiale, tra cui Apollo e Redwood Research, che hanno fornito consulenza su una sezione dedicata al disallineamento nell’ultima versione del nostro Quadro di sicurezza delle frontiere.

Attraverso il dialogo costante con le parti interessate politiche a livello globale, speriamo di contribuire al consenso internazionale sulle questioni critiche di sicurezza e protezione delle frontiere, compreso il modo in cui possiamo anticipare e prepararci al meglio per nuovi rischi.

I nostri sforzi includono la collaborazione con altri operatori del settore, tramite organizzazioni come Forum sul modello di frontiera – condividere e sviluppare le migliori pratiche, nonché preziose collaborazioni con gli istituti di intelligenza artificiale sui test di sicurezza. In definitiva, riteniamo che un approccio internazionale coordinato alla governance sia fondamentale per garantire che la società tragga vantaggio dai sistemi di intelligenza artificiale avanzati.

Educare ricercatori ed esperti di intelligenza artificiale sulla sicurezza dell’AGI è fondamentale per creare una solida base per il suo sviluppo. Pertanto, abbiamo lanciato a nuovo corso su AGI Safety per studenti, ricercatori e professionisti interessati a questo tema.

In definitiva, il nostro approccio alla sicurezza e alla protezione dell’AGI funge da tabella di marcia vitale per affrontare le numerose sfide che rimangono aperte. Non vediamo l’ora di collaborare con la più ampia comunità di ricerca sull’intelligenza artificiale per far avanzare l’AGI in modo responsabile e aiutarci a sbloccare gli immensi vantaggi di questa tecnologia per tutti.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *