
In Dicembre Abbiamo introdotto per la prima volta l'output di immagini native in Gemini 2.0 Flash a tester di fiducia. Oggi lo stiamo rendendo disponibile per la sperimentazione degli sviluppatori Tutte le regioni Attualmente supportato da Google AI Studio. Puoi testare questa nuova capacità utilizzando una versione sperimentale di Gemini 2.0 Flash (Gemini-2.0-Flash-Exp) in Google AI Studio e tramite l'API Gemini.
Gemini 2.0 Flash combina input multimodali, ragionamento migliorato e comprensione del linguaggio naturale per creare immagini.
Ecco alcuni esempi di dove le uscite multimodali di 2.0 Flash brillano:
1. Testo e immagini insieme
Usa Gemini 2.0 Flash per raccontare una storia e la illustrerà con le immagini, mantenendo coerenti i personaggi e le impostazioni. Dagli feedback e il modello raccomanderà la storia o cambierà lo stile dei suoi disegni.
Storia e generazione di illustrazione in Google AI Studio
2. Editing di immagini conversazionali
Gemini 2.0 Flash ti aiuta a modificare le immagini attraverso molte curve di un dialogo in linguaggio naturale, ottimo per ripetere un'immagine perfetta o per esplorare idee diverse insieme.
Conversazione multi-tornita Editing dell'immagine mantenendo il contesto durante la conversazione in Google AI Studio
3. Comprensione del mondo
A differenza di molti altri modelli di generazione di immagini, Gemini 2.0 flash sfrutta la conoscenza del mondo e un ragionamento migliorato per creare il Giusto immagine. Questo lo rende perfetto per la creazione di immagini dettagliate realistiche, come illustrare una ricetta. Mentre si impegna per l'accuratezza, come tutti i modelli linguistici, la sua conoscenza è ampia e generale, non assoluta o completa.
Output di testo e immagine interlacciato per una ricetta in Google AI Studio
4. Rendering di testo
La maggior parte dei modelli di generazione di immagini fatica a rendere accuratamente lunghe sequenze di testo, spesso risultando in caratteri scarsamente formattati o illeggibili, o errori di errori di ortografia. I benchmark interni mostrano che 2.0 Flash ha un rendering più forte rispetto ai principali modelli competitivi e ottimi per la creazione di pubblicità, post sociali o persino inviti.
Output di immagini con lungo testo rendering in Google AI Studio
Inizia oggi a fare immagini con Gemelli
Inizia con Gemini 2.0 Flash tramite l'API Gemini. Maggiori informazioni sulla generazione di immagini nel nostro Documenti.
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=("Text", "Image")
),
)
Sia che tu stia costruendo agenti di intelligenza artificiale, sviluppando app con splendidi elementi visivi come storie interattive illustrate o idee visive di brainstorming in conversazione, Gemini 2.0 Flash ti consente di aggiungere il testo e la generazione di immagini con un solo modello. Siamo ansiosi di vedere cosa creano gli sviluppatori con l'output di immagini native e il tuo feedback Ci aiuterà presto a finalizzare una versione pronta per la produzione.
Fonte: deepmind.google