Le immagini alterate per ingannare la visione artificiale possono influenzare anche gli esseri umani | Intelligenza-Artificiale

Indice contenuti

Ricerca

Pubblicato: 2 gennaio 2024
Autori: Gamaleldin Elsayed

Una nuova ricerca mostra che anche i più piccoli cambiamenti alle immagini digitali, progettati per confondere i sistemi di visione artificiale, possono influenzare la percezione umana

I computer e gli esseri umani vedono il mondo in modi diversi. I nostri sistemi biologici e quelli artificiali nelle macchine potrebbero non prestare sempre attenzione agli stessi segnali visivi. Le reti neurali addestrate per classificare le immagini possono essere completamente fuorviate da sottili perturbazioni su un’immagine che un essere umano non noterebbe nemmeno.

Il fatto che i sistemi di intelligenza artificiale possano essere ingannati da tali immagini contraddittorie può indicare una differenza fondamentale tra la percezione umana e quella della macchina, ma ci ha spinto a esplorare se anche gli esseri umani potrebbero, in condizioni di test controllati, rivelare sensibilità alle stesse perturbazioni. In una serie di esperimenti pubblicati su Nature Communications, abbiamo trovato prove del fatto che i giudizi umani sono effettivamente sistematicamente influenzati dalle perturbazioni dell’avversario.

La nostra scoperta evidenzia una somiglianza tra la visione umana e quella artificiale, ma dimostra anche la necessità di ulteriori ricerche per comprendere l’influenza che le immagini antagoniste hanno sulle persone, così come sui sistemi di intelligenza artificiale.

Cos’è un’immagine contraddittoria?

Un’immagine contraddittoria è un’immagine che è stata sottilmente alterata da una procedura che fa sì che un modello di intelligenza artificiale classifichi erroneamente il contenuto dell’immagine. Questo inganno intenzionale è noto come attacco contraddittorio. Gli attacchi possono essere mirati per indurre un modello IA a classificare un vaso come un gatto, ad esempio, oppure possono essere progettati per far sì che il modello veda qualsiasi cosa tranne un vaso.

A sinistra: una rete neurale artificiale (ANN) classifica correttamente l’immagine come un vaso ma, quando viene disturbata da uno schema apparentemente casuale nell’intera immagine (al centro), con l’intensità ingrandita a scopo illustrativo, l’immagine risultante (a destra) non è corretta e con sicurezza, classificato erroneamente come un gatto.

E tali attacchi possono essere subdoli. In un’immagine digitale, ogni singolo pixel in un’immagine RGB è su una scala 0-255 che rappresenta l’intensità dei singoli pixel. Un attacco contraddittorio può essere efficace anche se nessun pixel è modulato di più di 2 livelli su quella scala.

Anche gli attacchi avversari contro oggetti fisici nel mondo reale possono avere successo, ad esempio facendo sì che un segnale di stop venga erroneamente identificato come segnale di limite di velocità. In effetti, le preoccupazioni relative alla sicurezza hanno portato i ricercatori a studiare modi per resistere agli attacchi avversari e mitigarne i rischi.

In che modo la percezione umana viene influenzata dagli esempi contraddittori?

Precedenti ricerche hanno dimostrato che le persone possono essere sensibili alle perturbazioni delle immagini di grande entità che forniscono chiari segnali di forma. Tuttavia, si comprende meno sugli effetti di attacchi avversari più sfumati. Le persone liquidano le perturbazioni di un’immagine come rumore innocuo e casuale o possono influenzare la percezione umana?

Per scoprirlo, abbiamo eseguito esperimenti comportamentali controllati. Per cominciare, abbiamo preso una serie di immagini originali e abbiamo effettuato due attacchi avversari su ciascuna, per produrre molte coppie di immagini perturbate. Nell’esempio animato di seguito, l’immagine originale viene classificata come “vaso” da un modello. Le due immagini perturbate dagli attacchi dell’avversario all’immagine originale vengono quindi classificate erroneamente dal modello, con elevata confidenza, come obiettivi dell’avversario rispettivamente “gatto” e “camion”.

Successivamente, abbiamo mostrato ai partecipanti umani la coppia di immagini e posto una domanda mirata: “Quale immagine è più simile a un gatto?” Sebbene nessuna delle due immagini assomigli in alcun modo a un gatto, i partecipanti sono stati obbligati a fare una scelta e in genere hanno riferito di aver avuto la sensazione di fare una scelta arbitraria. Se le attivazioni cerebrali fossero insensibili ai sottili attacchi avversari, ci aspetteremmo che le persone scelgano ciascuna immagine in media il 50% delle volte. Tuttavia, abbiamo scoperto che il tasso di scelta, a cui ci riferiamo come bias percettivo, era decisamente superiore al caso per un’ampia varietà di coppie di immagini perturbate, anche quando nessun pixel veniva regolato di più di 2 livelli su quella scala 0-255.

Dal punto di vista di un partecipante, sembra che gli venga chiesto di distinguere tra due immagini praticamente identiche. Eppure la letteratura scientifica è piena di prove che le persone sfruttano segnali percettivi deboli nel fare scelte, segnali che sono troppo deboli perché possano esprimere fiducia o consapevolezza ). Nel nostro esempio, potremmo vedere un vaso di fiori, ma qualche attività nel cervello ci informa che c’è un accenno di gatto al riguardo.

A sinistra: esempi di coppie di immagini contraddittorie. La coppia di immagini superiore viene leggermente perturbata, a una grandezza massima di 2 livelli di pixel, per far sì che una rete neurale le classifichi erroneamente rispettivamente come “camion” e “gatto”. A un volontario umano viene chiesto “Quale è più simile a un gatto?” La coppia di immagini inferiore è stata manipolata in modo più evidente, ad una grandezza massima di 16 livelli di pixel, per essere classificata erroneamente come “sedia” e “pecora”. La domanda questa volta è: “Quale è più simile a una pecora?”

Abbiamo effettuato una serie di esperimenti che hanno escluso potenziali spiegazioni artefatte del fenomeno per il nostro articolo su Nature Communications. In ciascun esperimento, i partecipanti hanno selezionato in modo affidabile l’immagine del contraddittorio corrispondente alla domanda mirata più della metà delle volte. Sebbene la visione umana non sia così suscettibile alle perturbazioni antagoniste come lo è la visione artificiale (le macchine non identificano più la classe di immagini originale, ma le persone la vedono ancora chiaramente), il nostro lavoro mostra che queste perturbazioni possono tuttavia influenzare gli esseri umani verso le decisioni prese dalle macchine.

L’importanza della ricerca sulla sicurezza e la protezione dell’IA

La nostra scoperta principale secondo cui la percezione umana può essere influenzata, anche se in modo sottile, da immagini contraddittorie solleva questioni cruciali per la ricerca sulla sicurezza e la protezione dell’IA, ma utilizzando esperimenti formali per esplorare le somiglianze e le differenze nel comportamento dei sistemi visivi dell’IA e nella percezione umana, possiamo sfruttare gli insight per costruire sistemi di intelligenza artificiale più sicuri.

Ad esempio, i nostri risultati possono informare la ricerca futura che cerca di migliorare la robustezza dei modelli di visione artificiale allineandoli meglio con le rappresentazioni visive umane. Misurare la suscettibilità umana alle perturbazioni degli avversari potrebbe aiutare a giudicare tale allineamento per una varietà di architetture di visione artificiale.

Il nostro lavoro dimostra anche la necessità di ulteriori ricerche per comprendere gli effetti più ampi delle tecnologie non solo sulle macchine, ma anche sugli esseri umani. Ciò a sua volta evidenzia la continua importanza delle scienze cognitive e delle neuroscienze per comprendere meglio i sistemi di intelligenza artificiale e il loro potenziale impatto mentre ci concentriamo sulla costruzione di sistemi più sicuri.

Fonte: deepmind.google