Responsabilità e sicurezza
Una nuova ricerca analizza l'uso improprio dell'intelligenza artificiale generativa multimodale oggi, al fine di aiutare a costruire tecnologie più sicure e responsabili
I modelli di intelligenza artificiale generativa (IA) in grado di produrre immagini, testo, audio, video e altro stanno aprendo una nuova era di creatività e opportunità commerciali. Tuttavia, man mano che queste capacità crescono, cresce anche il potenziale per il loro uso improprio, tra cui manipolazione, frode, bullismo o molestie.
Nell'ambito di il nostro impegno per sviluppare e utilizzare l'intelligenza artificiale in modo responsabile, abbiamo pubblicato un nuovo documentoin collaborazione con Puzzle E Google.organalizzando come le tecnologie di intelligenza artificiale generativa siano oggi utilizzate in modo improprio. I team di Google stanno utilizzando questa e altre ricerche per sviluppare migliori misure di sicurezza per le nostre tecnologie di intelligenza artificiale generativa, tra le altre iniziative di sicurezza.
Insieme, abbiamo raccolto e analizzato circa 200 resoconti dei media che catturano incidenti pubblici di abuso, pubblicati tra gennaio 2023 e marzo 2024. Da questi resoconti, abbiamo definito e categorizzato tattiche comuni per l'abuso dell'IA generativa e trovato nuovi modelli nel modo in cui queste tecnologie vengono sfruttate o compromesse.
Chiarificando le attuali minacce e tattiche utilizzate nei diversi tipi di output di intelligenza artificiale generativa, il nostro lavoro può contribuire a plasmare la governance dell'intelligenza artificiale e guidare aziende come Google e altre che sviluppano tecnologie di intelligenza artificiale nello sviluppo di valutazioni di sicurezza e strategie di mitigazione più complete.
Evidenziando le principali categorie di abuso
Sebbene gli strumenti di intelligenza artificiale generativa rappresentino un mezzo unico e avvincente per migliorare la creatività, la capacità di produrre contenuti realistici e personalizzati potrebbe essere utilizzata in modo inappropriato da malintenzionati.
Analizzando i resoconti dei media, abbiamo identificato due categorie principali di tattiche di abuso dell'IA generativa: lo sfruttamento delle capacità dell'IA generativa e la compromissione dei sistemi di IA generativa. Esempi di tecnologie sfruttate includevano la creazione di rappresentazioni realistiche di sembianze umane per impersonare personaggi pubblici; mentre casi di tecnologie compromesse includevano il “jailbreaking” per rimuovere le protezioni del modello e l'uso di input avversari per causare malfunzionamenti.
I casi di sfruttamento, che coinvolgono attori malintenzionati che sfruttano strumenti di intelligenza artificiale generativa facilmente accessibili a livello di consumatore, spesso in modi che non richiedono competenze tecniche avanzate, sono stati i più diffusi nel nostro set di dati. Ad esempio, abbiamo esaminato un caso di alto profilo di febbraio 2024 in cui un'azienda internazionale si dice che abbia perso 200 milioni di dollari di Hong Kong (circa 26 milioni di $ USA) dopo che un dipendente è stato ingannato per effettuare un trasferimento finanziario durante una riunione online. In questo caso, ogni altra “persona” nella riunione, incluso il direttore finanziario dell'azienda, era in realtà un impostore convincente, generato dal computer.
Alcune delle tattiche più importanti che abbiamo osservato, come l'impersonificazione, le truffe e le personalità sintetiche, sono antecedenti all'invenzione dell'IA generativa e sono state a lungo utilizzate per influenzare l'ecosistema informativo e manipolare gli altri. Ma un accesso più ampio agli strumenti di IA generativa potrebbe modificare i costi e gli incentivi alla base della manipolazione delle informazioni, conferendo a queste tattiche secolari nuova potenza e potenziale, soprattutto a coloro che in precedenza non avevano la sofisticatezza tecnica per incorporare tali tattiche.
Identificazione di strategie e combinazioni di abuso
Falsificare le prove e manipolare le sembianze umane sono alla base delle tattiche più diffuse nei casi di abuso nel mondo reale. Nel periodo di tempo da noi analizzato, la maggior parte dei casi di abuso dell'IA generativa è stata impiegata nel tentativo di influenzare l'opinione pubblica, abilitare truffe o attività fraudolente o generare profitti.
Osservando il modo in cui i malintenzionati combinano le loro tattiche di abuso dell'intelligenza artificiale generativa per raggiungere i loro vari obiettivi, abbiamo identificato specifiche combinazioni di abuso e le abbiamo etichettate come strategie.
Le forme emergenti di abuso dell'IA generativa, che non sono apertamente dannose, sollevano comunque preoccupazioni etiche. Ad esempio, nuove forme di sensibilizzazione politica stanno confondendo i confini tra autenticità e inganno, come i funzionari governativi parlano improvvisamente una varietà di lingue favorevoli agli elettori senza una divulgazione trasparente del fatto che stanno utilizzando l'intelligenza artificiale generativa, e attivisti che utilizzano le voci generate dall'intelligenza artificiale delle vittime decedute per chiedere una riforma delle armi.
Sebbene lo studio fornisca nuove intuizioni sulle forme emergenti di abuso, vale la pena notare che questo set di dati è un campione limitato di resoconti dei media. I resoconti dei media possono dare priorità a incidenti sensazionalistici, che a loro volta possono distorcere il set di dati verso particolari tipi di abuso. Rilevare o segnalare casi di abuso può anche essere più impegnativo per le persone coinvolte perché i sistemi di intelligenza artificiale generativa sono così nuovi. Il set di dati inoltre non fa un confronto diretto tra l'abuso dei sistemi di intelligenza artificiale generativa e le tradizionali tattiche di creazione e manipolazione dei contenuti, come l'editing delle immagini o l'impostazione di “content farm” per creare grandi quantità di testo, video, gif, immagini e altro ancora. Finora, le prove aneddotiche suggeriscono che le tradizionali tattiche di manipolazione dei contenuti rimangono più diffuse.
Come prevenire potenziali abusi
Nostro carta evidenzia le opportunità di progettare iniziative che proteggano il pubblico, come la promozione di ampie campagne di alfabetizzazione sull'intelligenza artificiale generativa, lo sviluppo di interventi migliori per proteggere il pubblico da malintenzionati o preavvisare le persone e dotarle di strumenti per individuare e confutare le strategie manipolative utilizzate nell'uso improprio dell'intelligenza artificiale generativa.
Questa ricerca aiuta i nostri team a salvaguardare meglio i nostri prodotti, informando il nostro sviluppo di iniziative di sicurezza. Su YouTube, noi ora richiedono ai creatori di condividere quando il loro lavoro viene alterato in modo significativo o generato sinteticamente, e sembra realisticoAllo stesso modo, abbiamo aggiornato le nostre norme sulla pubblicità elettorale per richiedere agli inserzionisti di dichiarare quando i loro annunci elettorali includono materiale che è stato modificato o generato digitalmente.
Mentre continuiamo ad ampliare la nostra comprensione degli usi dannosi dell'IA generativa e a realizzare ulteriori progressi tecnici, sappiamo che è più importante che mai assicurarci che il nostro lavoro non avvenga in un silo. Di recente ci siamo uniti al Contenuto per la provenienza e l'autenticità della coalizione (C2PA) in qualità di membro del comitato direttivo per contribuire a sviluppare lo standard tecnico e promuovere l'adozione delle credenziali di contenuto, ovvero metadati a prova di manomissione che mostrano come il contenuto è stato creato e modificato nel tempo.
Parallelamente, stiamo anche conducendo ricerche che promuovono gli sforzi di red-teaming esistenti, tra cui migliorare le best practice per testare la sicurezza dei modelli linguistici di grandi dimensioni (LLM)e sviluppando strumenti pionieristici per rendere più facile l'identificazione dei contenuti generati dall'intelligenza artificiale, come SintesiIDche viene integrato in una gamma crescente di prodotti.
Negli ultimi anni, Jigsaw ha ha condotto ricerche con i creatori di disinformazione per comprendere gli strumenti e le tattiche che utilizzano, sviluppato video di pre-bunking per avvertire le persone dei tentativi di manipolarle, e ha dimostrato che le campagne di pre-bunking possono migliorare la resilienza della disinformazione su larga scalaQuesto lavoro fa parte del più ampio portafoglio di interventi informativi di Jigsaw per aiutare le persone a proteggersi online.
Affrontando in modo proattivo i potenziali abusi, possiamo promuovere un uso responsabile ed etico dell'IA generativa, riducendo al minimo i rischi. Ci auguriamo che queste intuizioni sulle tattiche e strategie di abuso più comuni aiutino ricercatori, decisori politici, team di fiducia e sicurezza del settore a creare tecnologie più sicure e responsabili e a sviluppare misure migliori per combattere l'abuso.
Fonte: deepmind.google