Oggi rilasciamo due modelli Gemini aggiornati e pronti per la produzione: Gemini-1.5-Pro-002 E Gemini-1.5-Flash-002 insieme a:
- Prezzo ridotto >50% su 1.5 Pro (sia input che output per prompt <128K)
- Limiti di velocità 2 volte più alti su 1.5 Flash e circa 3 volte più alti su 1.5 Pro
- Output 2 volte più veloce e latenza 3 volte inferiore
- Impostazioni di filtro predefinite aggiornate
Questi nuovi modelli si basano sulle nostre ultime versioni sperimentali e includono miglioramenti significativi ai modelli Gemini 1.5 rilasciati al Google I/O di maggio. Gli sviluppatori possono accedere gratuitamente ai nostri ultimi modelli tramite Studio sull’intelligenza artificiale di Google e il API Gemelli. Per le organizzazioni più grandi e i clienti Google Cloud, i modelli sono disponibili anche su IA del vertice.
Qualità generale migliorata, con maggiori guadagni in matematica, contesto lungo e visione
Le serie Gemini 1.5 sono modelli progettati per prestazioni generali in un’ampia gamma di attività di testo, codice e multimodali. Ad esempio, i modelli Gemini possono essere utilizzati per sintetizzare informazioni da PDF di 1000 pagine, rispondere a domande sui repository contenenti più di 10mila righe di codice, acquisire video di un’ora e creare contenuti utili da essi e altro ancora.
Con gli ultimi aggiornamenti, 1.5 Pro e Flash sono ora migliori, più veloci e più convenienti da utilizzare in produzione. Vediamo un aumento del 7% circa in MMLU-Pro, una versione più impegnativa del popolare benchmark MMLU. Sui benchmark MATH e HiddenMath (una serie interna di problemi di matematica della concorrenza), entrambi i modelli hanno apportato un notevole miglioramento di circa il 20%. Per i casi d’uso di visione e codice, entrambi i modelli offrono prestazioni migliori (compresi tra circa il 2-7%) nelle valutazioni che misurano la comprensione visiva e la generazione di codice Python.
Abbiamo anche migliorato l’utilità generale delle risposte dei modelli, continuando a rispettare le nostre politiche e i nostri standard sulla sicurezza dei contenuti. Ciò significa meno puntate/meno rifiuti e risposte più utili su molti argomenti.
Entrambi i modelli ora hanno uno stile più conciso in risposta al feedback degli sviluppatori che ha lo scopo di rendere questi modelli più facili da usare e ridurre i costi. Per casi d’uso come riepilogo, risposta a domande ed estrazione, la lunghezza di output predefinita dei modelli aggiornati è inferiore di circa il 5-20% rispetto ai modelli precedenti. Per i prodotti basati su chat in cui gli utenti potrebbero preferire risposte più lunghe per impostazione predefinita, puoi leggere il nostro guida alle strategie di suggerimento per saperne di più su come rendere i modelli più dettagliati e colloquiali.
Per maggiori dettagli sulla migrazione alle ultime versioni di Gemini 1.5 Pro e 1.5 Flash, consulta il Pagina dei modelli API Gemini.
Gemelli 1.5 Pro
Continuiamo a rimanere stupiti dalle applicazioni creative e utili dei token da 2 milioni di Gemini 1.5 Pro finestra di contesto lunga e capacità multimodali. Dalla comprensione del video a elaborazione di PDF da 1000 pagineci sono così tanti nuovi casi d’uso ancora da costruire. Oggi annunciamo una riduzione del prezzo del 64% sui token di input, una riduzione del prezzo del 52% sui token di output e una riduzione del prezzo del 64% sui token incrementali memorizzati nella cache per il nostro modello più potente della serie 1.5, Gemini 1.5 Pro, in vigore dal 1° ottobre 2024sui prompt meno di 128.000 token. Accoppiato con memorizzazione nella cache del contestoquesto continua a far scendere i costi di costruzione con Gemini.
Aumento dei limiti tariffari
Per rendere ancora più semplice per gli sviluppatori la creazione con Gemini, stiamo aumentando i limiti di velocità del livello a pagamento per 1.5 Flash a 2.000 RPM e per 1.5 Pro a 1.000 RPM, rispettivamente da 1.000 e 360. Nelle prossime settimane, prevediamo di continuare ad aumentare il Limiti di velocità dell’API Gemini così gli sviluppatori possono creare di più con Gemini.
Output 2 volte più veloce e latenza 3 volte inferiore
Oltre ai miglioramenti fondamentali apportati ai nostri modelli più recenti, nelle ultime settimane abbiamo ridotto la latenza con 1,5 Flash e aumentato significativamente i token di output al secondo, consentendo nuovi casi d’uso con i nostri modelli più potenti.
Impostazioni del filtro aggiornate
Dal primo lancio di Gemini nel dicembre del 2023, costruire una cassaforte e un modello affidabile è stato un obiettivo chiave. Con le ultime versioni di Gemini (modelli -002), abbiamo apportato miglioramenti alla capacità del modello di seguire le istruzioni dell’utente bilanciando la sicurezza. Continueremo a offrire una suite di filtri di sicurezza che gli sviluppatori possono applicare ai modelli di Google. Per i modelli rilasciati oggi, i filtri non verranno applicati per impostazione predefinita in modo che gli sviluppatori possano determinare la configurazione più adatta al loro caso d’uso.
Gemini 1.5 Flash-8B Aggiornamenti sperimentali
Stiamo rilasciando una versione ulteriormente migliorata del modello Gemini 1.5 annunciato ad agosto denominata “Gemini-1.5-Flash-8B-Exp-0924”. Questa versione migliorata include aumenti significativi delle prestazioni sia nei casi d’uso testuali che multimodali. È ora disponibile tramite Google AI Studio e l’API Gemini.
È stato incredibile vedere il feedback estremamente positivo che gli sviluppatori hanno condiviso su 1.5 Flash-8B e continueremo a modellare la nostra pipeline di rilascio dalla sperimentazione alla produzione in base al feedback degli sviluppatori.
Siamo entusiasti di questi aggiornamenti e non vediamo l’ora di vedere cosa costruirai con i nuovi modelli Gemini! E per Gemelli Avanzato utenti, presto potrete accedere a una versione ottimizzata per la chat di Gemini 1.5 Pro-002.
Fonte: deepmind.google
