1.5 Flash eccelle nel riepilogo, nelle applicazioni di chat, nei sottotitoli di immagini e video, nell'estrazione di dati da documenti e tabelle lunghi e altro ancora. Questo perché è stato addestrato da 1.5 Pro attraverso un processo chiamato “distillazione”, in cui le conoscenze e le competenze più essenziali di un modello più grande vengono trasferite a un modello più piccolo ed efficiente.

Ulteriori informazioni su 1.5 Flash su Pagina della tecnologia Geminie conoscere 1.5 Disponibilità e prezzi di Flash. Presto condivideremo maggiori dettagli in un rapporto tecnico aggiornato su Gemini 1.5.

Miglioramento significativo di 1.5 Pro

Negli ultimi mesi abbiamo migliorato significativamente 1.5 Pro, il nostro miglior modello per prestazioni generali in un'ampia gamma di attività.

Oltre ad estendere la finestra di contesto a 2 milioni di token, abbiamo migliorato la generazione di codice, il ragionamento e la pianificazione logici, la conversazione a più turni e la comprensione di audio e immagini attraverso dati e progressi algoritmici. Vediamo forti miglioramenti sui parametri di riferimento pubblici e interni per ciascuno di questi compiti.

1.5 Pro ora può seguire istruzioni sempre più complesse e sfumate, comprese quelle che specificano il comportamento a livello di prodotto che coinvolge ruolo, formato e stile. Abbiamo migliorato il controllo sulle risposte del modello per casi d'uso specifici, come creare la personalità e lo stile di risposta di un agente di chat o automatizzare i flussi di lavoro attraverso più chiamate a funzioni. E abbiamo consentito agli utenti di guidare il comportamento del modello impostando istruzioni del sistema.

Abbiamo aggiunto la comprensione dell'audio nel file API Gemelli E Studio sull'intelligenza artificiale di Googlequindi 1.5 Pro ora può ragionare su immagini e audio per i video caricati in Google AI Studio. E ora stiamo integrando 1.5 Pro nei prodotti Google, incluso Gemelli Avanzati e dentro Spazio di lavoro app.

Ulteriori informazioni su 1.5 Pro su Pagina della tecnologia Gemini. Maggiori dettagli saranno presto disponibili nel nostro rapporto tecnico aggiornato su Gemini 1.5.

Gemini Nano comprende gli input multimodali

Gemini Nano si sta espandendo oltre gli input di solo testo per includere anche le immagini. A partire da Pixel, le applicazioni che utilizzano Gemini Nano con Multimodalità saranno in grado di comprendere il mondo come fanno le persone, non solo attraverso il testo, ma anche attraverso la vista, il suono e il linguaggio parlato.

Leggi di più su Gemini 1.0 Nano su Android.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *