Oggi lanciamo due modelli Gemini aggiornati e pronti per la produzione: Gemelli-1.5-Pro-002 E Gemelli-1.5-Flash-002 insieme a:
- >50% di sconto sul prezzo 1.5 Pro (sia in input che in output per prompt <128K)
- Limiti di velocità 2 volte superiori su 1.5 Flash e circa 3 volte superiori su 1.5 Pro
- Output 2 volte più veloce e latenza 3 volte inferiore
- Impostazioni filtro predefinite aggiornate
Questi nuovi modelli si basano sui nostri ultimi rilasci di modelli sperimentali e includono miglioramenti significativi ai modelli Gemini 1.5 rilasciati al Google I/O a maggio. Gli sviluppatori possono accedere ai nostri ultimi modelli gratuitamente tramite Studio di intelligenza artificiale di Google e il API GemelliPer le organizzazioni più grandi e i clienti di Google Cloud, i modelli sono disponibili anche su Vertice AI.
Miglioramento della qualità complessiva, con maggiori guadagni in matematica, contesto lungo e visione
La serie Gemini 1.5 è composta da modelli progettati per prestazioni generali in un'ampia gamma di attività di testo, codice e multimodali. Ad esempio, i modelli Gemini possono essere utilizzati per sintetizzare informazioni da PDF di 1000 pagine, rispondere a domande su repository contenenti più di 10 mila righe di codice, guardare video lunghi un'ora e creare contenuti utili da essi, e altro ancora.
Con gli ultimi aggiornamenti, 1.5 Pro e Flash sono ora migliori, più veloci e più convenienti da usare in produzione. Vediamo un aumento di circa il 7% in MMLU-Pro, una versione più impegnativa del famoso benchmark MMLU. Nei benchmark MATH e HiddenMath (un set interno di problemi matematici di concorrenza), entrambi i modelli hanno fatto un notevole miglioramento di circa il 20%. Per i casi d'uso di visione e codice, entrambi i modelli hanno anche prestazioni migliori (che vanno dal ~2 al 7%) nelle valutazioni che misurano la comprensione visiva e la generazione di codice Python.
Abbiamo anche migliorato l'utilità complessiva delle risposte modello, continuando a rispettare le nostre policy e i nostri standard di sicurezza dei contenuti. Ciò significa meno punting/meno rifiuti e risposte più utili su molti argomenti.
Entrambi i modelli hanno ora uno stile più conciso in risposta al feedback degli sviluppatori, che mira a rendere questi modelli più facili da usare e a ridurre i costi. Per casi d'uso come riepilogo, risposta alle domande ed estrazione, la lunghezza di output predefinita dei modelli aggiornati è più corta di circa il 5-20% rispetto ai modelli precedenti. Per i prodotti basati su chat in cui gli utenti potrebbero preferire risposte più lunghe per impostazione predefinita, puoi leggere il nostro guida alle strategie di sollecitazione per saperne di più su come rendere i modelli più prolissi e colloquiali.
Per maggiori dettagli sulla migrazione alle ultime versioni di Gemini 1.5 Pro e 1.5 Flash, consulta il Pagina dei modelli API Gemini.
Gemelli 1.5 Pro
Continuiamo a essere stupiti dalle applicazioni creative e utili dei 2 milioni di token di Gemini 1.5 Pro finestra di contesto lunga e capacità multimodali. Dalla comprensione video a elaborazione di PDF da 1000 pagineci sono ancora così tanti nuovi casi d'uso da sviluppare. Oggi annunciamo una riduzione del prezzo del 64% sui token di input, una riduzione del prezzo del 52% sui token di output e una riduzione del prezzo del 64% sui token incrementali memorizzati nella cache per il nostro modello più forte della serie 1.5, Gemini 1.5 Pro, in vigore dal 1° ottobre 2024su richieste inferiori a 128K token. Accoppiato con memorizzazione nella cache del contestociò continua a far scendere i costi di costruzione con Gemini.
Limiti di velocità aumentati
Per rendere ancora più semplice per gli sviluppatori la creazione con Gemini, stiamo aumentando i limiti di tariffa del livello a pagamento per 1.5 Flash a 2.000 RPM e aumentando 1.5 Pro a 1.000 RPM, rispetto a 1.000 e 360, rispettivamente. Nelle prossime settimane, prevediamo di continuare ad aumentare il Limiti di velocità dell'API Gemini così gli sviluppatori possono creare di più con Gemini.
Output 2 volte più veloce e latenza 3 volte inferiore
Oltre ai miglioramenti fondamentali apportati ai nostri ultimi modelli, nelle ultime settimane abbiamo ridotto la latenza con Flash 1.5 e aumentato significativamente i token di output al secondo, consentendo nuovi casi d'uso con i nostri modelli più potenti.
Impostazioni filtro aggiornate
Dal primo lancio di Gemini nel dicembre 2023, costruire una cassaforte e affidabile è stato un obiettivo chiave. Con le ultime versioni di Gemini (modelli -002), abbiamo apportato miglioramenti alla capacità del modello di seguire le istruzioni dell'utente bilanciando la sicurezza. Continueremo a offrire una serie di filtri di sicurezza che gli sviluppatori possono applicare ai modelli di Google. Per i modelli rilasciati oggi, i filtri non saranno applicati di default in modo che gli sviluppatori possano determinare la configurazione più adatta al loro caso d'uso.
Aggiornamenti sperimentali Gemini 1.5 Flash-8B
Stiamo rilasciando una versione ulteriormente migliorata del modello Gemini 1.5 annunciato ad agosto, denominata “Gemini-1.5-Flash-8B-Exp-0924”. Questa versione migliorata include significativi incrementi di prestazioni sia nei casi d'uso testuali che multimodali. È ora disponibile tramite Google AI Studio e la Gemini API.
È stato incredibile vedere il feedback estremamente positivo che gli sviluppatori hanno condiviso su 1.5 Flash-8B e continueremo a modellare la nostra pipeline di rilascio dalla versione sperimentale a quella di produzione in base al feedback degli sviluppatori.
Siamo entusiasti di questi aggiornamenti e non vediamo l'ora di vedere cosa costruirai con i nuovi modelli Gemini! E per Gemelli Avanzato utenti, presto potrete accedere a una versione di Gemini 1.5 Pro-002 ottimizzata per la chat.
Fonte: deepmind.google