La generazione di immagini AI in più lingue porta a risultati diversi

Immagini generate utilizzando DALL-E 3 nelle sei lingue per il prompt “un’immagine di una persona”. Figura creata dall’autore.

Questo articolo è stato originariamente pubblicato sull’intelligenza dei pesci artistici

OpenAI è stato lanciato di recente DA-E 3l’ultimo nella loro linea di modelli di generazione di immagini AI.

Ma come recente copertura mediatica E ricerca rivelano, questi modelli di intelligenza artificiale portano con sé il bagaglio di pregiudizi e stereotipi. Ad esempio, i modelli di generazione di immagini AI come Stable Diffusion e Midjourney tendono ad amplificare gli stereotipi esistenti su razza, genereE identità nazionale.

La maggior parte di questi studi, tuttavia, testano principalmente i modelli utilizzando suggerimenti in inglese. Ciò solleva la domanda: come risponderebbero questi modelli a suggerimenti non inglesi?

In questo articolo approfondisco il comportamento di DALL-E 3 con istruzioni in diverse lingue. Traendo spunto dai temi miei lavori precedentiOffro una prospettiva multilingue sul più recente modello di generazione di immagini AI.

A differenza dei precedenti modelli di generazione di immagini AI, questa versione più recente del modello DALL-E non genera direttamente ciò che digiti. Invece, DALL-E 3 incorpora trasformazioni automatiche dei promptnel senso che trasforma il tuo prompt originale in una versione diversa e più descrittiva.

Un esempio di rapida trasformazione dal documento di OpenAI che descrive in dettaglio il processo di miglioramento dei sottotitoli: Miglioramento della generazione di immagini con didascalie migliori. Figura creata dall’autore.

Secondo il Scheda di sistema DALL-E 3c’erano alcuni motivi per farlo:

  • Miglioramento delle didascalie essere più descrittivo
  • Eliminazione dei nomi dei personaggi pubblici
  • Specificare descrizioni più diversificate delle persone generate (ad esempio, prima delle trasformazioni immediate, le persone generate tendevano ad essere principalmente bianche, giovani e donne)

Quindi, il processo di generazione dell’immagine è simile a questo:

  1. Digiti il ​​tuo messaggio in DALL-E 3 (disponibile tramite ChatGPT Plus)
  2. Il tuo prompt viene modificato dietro le quinte in quattro diversi prompt trasformati
  3. DALL-E 3 genera un’immagine basata su ciascuno di…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *