Inizia a costruire con Gemini 2.5 Flash | Intelligenza-Artificiale

Indice contenuti

Oggi stiamo lanciando una prima versione di Gemelli 2.5Flash In anteprima tramite l’API Gemini tramite Studio sull’intelligenza artificiale di Google E IA del vertice. Basandosi sulle popolari fondamenta di 2.0 Flash, questa nuova versione offre un importante aggiornamento delle capacità di ragionamento, pur dando priorità alla velocità e ai costi. Gemini 2.5 Flash è il nostro primo modello di ragionamento completamente ibrido, che offre agli sviluppatori la possibilità di attivare o disattivare il pensiero. Il modello consente inoltre agli sviluppatori di impostare budget mirati per trovare il giusto compromesso tra qualità, costo e latenza. Anche con pensando fuori, gli sviluppatori possono mantenere le velocità elevate di 2.0 Flash e migliorare le prestazioni.

I nostri modelli Gemini 2.5 sono modelli pensanti, capaci di ragionare attraverso i propri pensieri prima di rispondere. Invece di generare immediatamente un output, il modello può eseguire un processo di “pensiero” per comprendere meglio la richiesta, suddividere attività complesse e pianificare una risposta. Su compiti complessi che richiedono più fasi di ragionamento (come risolvere problemi di matematica o analizzare domande di ricerca), il processo di pensiero consente al modello di arrivare a risposte più accurate e complete. In effetti, Gemini 2.5 Flash offre ottime prestazioni Suggerimenti difficili in LMArenasecondo solo a 2.5 Pro.

Tabella comparativa che mostra le metriche di prezzo e prestazioni per i LLM

2.5 Flash ha parametri comparabili ad altri modelli leader per una frazione del costo e delle dimensioni.

Il nostro modello di pensiero più conveniente

2.5 Flash continua a essere il modello con il miglior rapporto qualità-prezzo.

Un grafico che mostra il confronto prezzo/prestazioni di Gemini 2.5 Flash

Gemini 2.5 Flash aggiunge un altro modello alla frontiera pareto di Google del rapporto costo/qualità.*

Controlli dettagliati per gestire il pensiero

Sappiamo che casi d’uso diversi presentano compromessi diversi in termini di qualità, costi e latenza. Per offrire flessibilità agli sviluppatori, abbiamo abilitato l’impostazione di a pensare al bilancio che offre un controllo dettagliato sul numero massimo di token che un modello può generare mentre pensa. Un budget più elevato consente al modello di ragionare ulteriormente per migliorare la qualità. È importante sottolineare, tuttavia, che il budget stabilisce un limite a quanto 2.5 Flash può pensare, ma il modello non utilizza l’intero budget se il prompt non lo richiede.

I grafici mostrano miglioramenti nella qualità del ragionamento man mano che il budget per pensare aumenta

Miglioramenti nella qualità del ragionamento man mano che aumenta il budget per pensare.

Il modello è addestrato per sapere quanto tempo pensare per un dato suggerimento e quindi decide automaticamente quanto pensare in base alla complessità percepita del compito.

Se desideri mantenere costi e latenza minimi migliorando al tempo stesso le prestazioni rispetto a Flash 2.0, imposta il budget pensante su 0. Puoi anche scegliere di impostare un budget token specifico per la fase di riflessione utilizzando un parametro nell’API o lo slider in Google AI Studio e in Vertex AI. Il budget può variare da 0 a 24576 token per 2,5 Flash.

Le seguenti istruzioni dimostrano quanto ragionamento può essere utilizzato nella modalità predefinita di Flash 2.5.

Suggerimenti che richiedono un ragionamento basso:

Esempio 1: “Grazie” in spagnolo

Esempio 2: Quante province ha il Canada?

Suggerimenti che richiedono un ragionamento medio:

Esempio 1: Lancia due dadi. Qual è la probabilità che la somma dia 7?

Esempio 2: La mia palestra ha orari di ritiro per il basket tra le 21:00 e le 15:00 su MWF e tra le 14:00 e le 20:00 il martedì e il sabato. Se lavoro dalle 21 alle 18 5 giorni a settimana e voglio giocare 5 ore di basket nei giorni feriali, crea un programma per far sì che tutto funzioni.

Suggerimenti che richiedono un ragionamento elevato:

Esempio 1: Una trave a sbalzo di lunghezza L=3m ha sezione rettangolare (larghezza b=0,1m, altezza h=0,2m) ed è realizzata in acciaio (E=200 GPa). È soggetto ad un carico uniformemente distribuito w=5 kN/m lungo tutta la sua lunghezza e ad un carico concentrato P=10 kN all’estremità libera. Calcolare la massima sollecitazione di flessione (σ_max).

Esempio 2: Scrivi una funzione evaluate_cells(cells: Dict(str, str)) -> Dict(str, float) che calcola i valori delle celle del foglio di calcolo.

Ogni cella contiene:

O una formula come "=A1 + B1 * 2" utilizzando +, -, *,/ e altre cellule.

Requisiti:

Risolvere le dipendenze tra le celle.

Gestire la precedenza degli operatori (*/ Prima +-).

Rileva cicli e rilancia ValueError("Cycle detected at ").

NO eval(). Utilizzare solo librerie integrate.

Inizia a costruire con Gemini 2.5 Flash oggi stesso

Gemini 2.5 Flash con funzionalità di pensiero è ora disponibile in anteprima tramite API Gemelli In Studio sull’intelligenza artificiale di Google e dentro IA del verticee in un menu a discesa dedicato nel file Applicazione Gemelli. Ti invitiamo a sperimentare il thinking_budget parametro ed esplorare come il ragionamento controllabile può aiutarti a risolvere problemi più complessi.

from google import genai

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(
  model="gemini-2.5-flash-preview-04-17",
  contents="You roll two dice. What’s the probability they add up to 7?",
  config=genai.types.GenerateContentConfig(
    thinking_config=genai.types.ThinkingConfig(
      thinking_budget=1024
    )
  )
)

print(response.text)

Pitone

Trova riferimenti API dettagliati e guide di pensiero nella nostra documenti per sviluppatori o iniziare con esempi di codice dal Libro di cucina dei Gemelli.

Continueremo a migliorare Gemini 2.5 Flash, e altri arriveranno presto, prima di renderlo generalmente disponibile per l’utilizzo in piena produzione.

^*_{^{I prezzi dei modelli provengono da Analisi artificiale e documentazione aziendale}}

Fonte: deepmind.google