Perso nella traduzione DALL-E 3. Generazione di immagini AI in più... | di Yennie Jun | Novembre 2023 | Intelligenza-Artificiale

La generazione di immagini AI in più lingue porta a risultati diversi

Immagini generate utilizzando DALL-E 3 nelle sei lingue per il prompt “un’immagine di una persona”. Figura creata dall’autore.

Questo articolo è stato originariamente pubblicato sull’intelligenza dei pesci artistici

OpenAI è stato lanciato di recente DA-E 3l’ultimo nella loro linea di modelli di generazione di immagini AI.

Ma come recente copertura mediatica E ricerca rivelano, questi modelli di intelligenza artificiale portano con sé il bagaglio di pregiudizi e stereotipi. Ad esempio, i modelli di generazione di immagini AI come Stable Diffusion e Midjourney tendono ad amplificare gli stereotipi esistenti su razza, genereE identità nazionale.

La maggior parte di questi studi, tuttavia, testano principalmente i modelli utilizzando suggerimenti in inglese. Ciò solleva la domanda: come risponderebbero questi modelli a suggerimenti non inglesi?

In questo articolo approfondisco il comportamento di DALL-E 3 con istruzioni in diverse lingue. Traendo spunto dai temi miei lavori precedentiOffro una prospettiva multilingue sul più recente modello di generazione di immagini AI.

A differenza dei precedenti modelli di generazione di immagini AI, questa versione più recente del modello DALL-E non genera direttamente ciò che digiti. Invece, DALL-E 3 incorpora trasformazioni automatiche dei promptnel senso che trasforma il tuo prompt originale in una versione diversa e più descrittiva.

Un esempio di rapida trasformazione dal documento di OpenAI che descrive in dettaglio il processo di miglioramento dei sottotitoli: Miglioramento della generazione di immagini con didascalie migliori. Figura creata dall’autore.

Secondo il Scheda di sistema DALL-E 3c’erano alcuni motivi per farlo:

Miglioramento delle didascalie essere più descrittivo
Eliminazione dei nomi dei personaggi pubblici
Specificare descrizioni più diversificate delle persone generate (ad esempio, prima delle trasformazioni immediate, le persone generate tendevano ad essere principalmente bianche, giovani e donne)

Quindi, il processo di generazione dell’immagine è simile a questo:

Digiti il tuo messaggio in DALL-E 3 (disponibile tramite ChatGPT Plus)
Il tuo prompt viene modificato dietro le quinte in quattro diversi prompt trasformati
DALL-E 3 genera un’immagine basata su ciascuno di…

Fonte: towardsdatascience.com