Sperimenta la generazione di immagini native di Gemini 2.0 Flash

 | Intelligenza-Artificiale

In Dicembre abbiamo introdotto per la prima volta l’output di immagini native in Gemini 2.0 Flash ai tester fidati. Oggi lo rendiamo disponibile per la sperimentazione da parte degli sviluppatori tutte le regioni attualmente supportato da Google AI Studio. Puoi testare questa nuova funzionalità utilizzando una versione sperimentale di Gemini 2.0 Flash (gemini-2.0-flash-exp) in Google AI Studio e tramite l’API Gemini.

Gemini 2.0 Flash combina input multimodale, ragionamento avanzato e comprensione del linguaggio naturale per creare immagini.

Ecco alcuni esempi di dove gli output multimodali di Flash 2.0 brillano:


1. Testo e immagini insieme

Usa Gemini 2.0 Flash per raccontare una storia e la illustrerà con immagini, mantenendo i personaggi e le ambientazioni coerenti ovunque. Dai un feedback e il modello racconterà la storia o cambierà lo stile dei suoi disegni.

Siamo spiacenti, il tuo browser non supporta la riproduzione di questo video

Generazione di storie e illustrazioni in Google AI Studio

2. Modifica delle immagini conversazionale

Gemini 2.0 Flash ti aiuta a modificare le immagini attraverso molti turni di un dialogo in linguaggio naturale, ottimo per iterare verso un’immagine perfetta o per esplorare insieme idee diverse.

Siamo spiacenti, il tuo browser non supporta la riproduzione di questo video

Modifica delle immagini delle conversazioni a più turni mantenendo il contesto durante tutta la conversazione in Google AI Studio

3. Comprensione del mondo

A differenza di molti altri modelli di generazione di immagini, Gemini 2.0 Flash sfrutta la conoscenza del mondo e il ragionamento avanzato per creare Giusto immagine. Ciò lo rende perfetto per creare immagini dettagliate e realistiche, come illustrare una ricetta. Anche se punta all’accuratezza, come tutti i modelli linguistici, la sua conoscenza è ampia e generale, non assoluta o completa.

Siamo spiacenti, il tuo browser non supporta la riproduzione di questo video

Testo intercalato e output di immagini per una ricetta in Google AI Studio

4. Rappresentazione del testo

La maggior parte dei modelli di generazione di immagini fatica a eseguire il rendering accurato di lunghe sequenze di testo, spesso risultando in caratteri scarsamente formattati o illeggibili o in errori di ortografia. I benchmark interni mostrano che 2.0 Flash ha un rendering migliore rispetto ai principali modelli della concorrenza ed è ottimo per creare pubblicità, post sui social o persino inviti.

Siamo spiacenti, il tuo browser non supporta la riproduzione di questo video

Output di immagini con rendering di testo lungo in Google AI Studio

Inizia a creare immagini con Gemini oggi stesso

Inizia con Gemini 2.0 Flash tramite l’API Gemini. Maggiori informazioni sulla generazione di immagini nel nostro documenti.

from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=(
        "Generate a story about a cute baby turtle in a 3d digital art style. "
        "For each scene, generate an image."
    ),
    config=types.GenerateContentConfig(
        response_modalities=("Text", "Image")
    ),
)

Pitone

Che tu stia costruendo agenti IA, sviluppando app con immagini accattivanti come storie interattive illustrate o raccogliendo idee visive durante una conversazione, Gemini 2.0 Flash ti consente di aggiungere la generazione di testo e immagini con un solo modello. Siamo ansiosi di vedere cosa creano gli sviluppatori con l’output di immagini native e il tuo feedback ci aiuterà a finalizzare presto una versione pronta per la produzione.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *