Annuncio di Anteprima di Gemma 3N: AI potente, efficiente, mobile-first | Intelligenza-Artificiale

Indice contenuti

Seguendo gli entusiasmanti lanci di Gemma 3 E Gemma 3 QatLa nostra famiglia di modelli aperti all'avanguardia in grado di funzionare su un singolo cloud o acceleratore desktop, stiamo spingendo ulteriormente la nostra visione per l'intelligenza artificiale accessibile. Gemma 3 ha offerto potenti capacità per gli sviluppatori e ora stiamo estendendo quella visione a AI altamente capace, in tempo reale che opera direttamente sui dispositivi che usi ogni giorno: telefoni, tablet e laptop.

Per alimentare la prossima generazione di AI sul dispositivo e supportare una vasta gamma di applicazioni, tra cui l'avanzamento delle capacità di Gemini Nano, abbiamo progettato una nuova architettura all'avanguardia. Questa fondazione di prossima generazione è stata creata in stretta collaborazione con leader hardware mobili come Qualcomm Technologies, MediaTek e System LSI Business di Samsung ed è ottimizzata per la luce-AI multimodale, consentendo esperienze veramente personali e private direttamente sul tuo dispositivo.

Gemma 3n È il nostro primo modello aperto basato su questa innovativa architettura condivisa, che consente agli sviluppatori di iniziare a sperimentare questa tecnologia oggi in un'anteprima precoce. La stessa architettura avanzata alimenta anche la prossima generazione di Gemelli NanoIl che porta queste capacità a una vasta gamma di funzionalità nelle app di Google e nel nostro ecosistema sul dispositivo e sarà disponibile entro la fine dell'anno. Gemma 3N ti consente di iniziare a costruire su questa fondazione che arriveranno su piattaforme principali come Android e Chrome.

Chatbot Arena ELO.

Questo grafico classifica i modelli di AI di Chatbot Arena ELO Punteggi; I punteggi più alti (numeri migliori) indicano una maggiore preferenza dell'utente. Gemma 3N si colloca molto tra i modelli proprietari e aperti sia popolari.

Gemma 3N sfrutta un'innovazione di Google DeepMind chiamata Embddings per-strato (PLE) che offre una riduzione significativa dell'utilizzo della RAM. Mentre il conteggio dei parametri RAW è 5B e 8B, questa innovazione consente di eseguire modelli più grandi su dispositivi mobili o flusso live dal cloud, con un sovraccarico di memoria paragonabile a un modello 2B e 4B, il che significa che i modelli possono funzionare con un'impronta di memoria dinamica di soli 2 GB e 3 GB. Scopri di più nel nostro documentazione.

Esplorando Gemma 3N, gli sviluppatori possono ottenere un'anteprima precoce delle capacità di base del modello aperto e delle innovazioni architettoniche mobili-first che saranno disponibili su Android e Chrome con Gemini Nano.

In questo post, esploreremo le nuove capacità di Gemma 3N, il nostro approccio allo sviluppo responsabile e come puoi accedere all'anteprima oggi.

Capacità chiave di Gemma 3n

Ingegnerizzato per le esperienze di intelligenza artificiale a basso contenuto di foot che eseguono a livello locale, Gemma 3N offre:

Performance e efficienza ottimizzate in dispositivo: Gemma 3N inizia a rispondere circa 1,5x più velocemente sul cellulare con una qualità significativamente migliore (rispetto a Gemma 3 4b) e un'impronta di memoria ridotta ottenuta attraverso innovazioni come incorporamenti per strati, condivisione KVC e quantizzazione avanzata di attivazione.

Molti in 1 flessibilità: Un modello con un'impronta di memoria attiva 4b che include nativamente un sottomodello con impronta attivo attivo all'avanguardia nidificata (grazie a Forma alimentare formazione). Ciò fornisce flessibilità per scambiare dinamicamente le prestazioni e la qualità al volo senza ospitare modelli separati. Introduciamo ulteriormente la capacità di mix'n'match in Gemma 3n per creare dinamicamente sottomodelli dal modello 4B che può adattarsi in modo ottimale al caso d'uso specifico e al compromesso di qualità/latenza associato. Resta sintonizzato per ulteriori informazioni su questa ricerca nel nostro prossimo rapporto tecnico.

Privacy-First e Offline Pronto: L'esecuzione locale consente alle funzionalità che rispettano la privacy degli utenti e le funzioni in modo affidabile, anche senza una connessione Internet.

Comprensione multimodale ampliata con audio: Gemma 3n può comprendere ed elaborare audio, testo e immagini e offre una comprensione video significativamente migliorata. Le sue capacità audio consentono al modello di eseguire il riconoscimento vocale automatico di alta qualità (trascrizione) e la traduzione (discorso al testo tradotto). Inoltre, il modello accetta input interleavati tra le modalità, consentendo la comprensione di interazioni multimodali complesse. (Implementazione pubblica in arrivo)

Capacità multilingue migliorate: Performance multilingue migliorate, in particolare in giapponese, tedesco, coreano, spagnolo e francese. Forti prestazioni riflesse su benchmark multilingue come il 50,1% su WMT24 ++ (CHRF).

Performance MMLU

Le prestazioni MMLU MMLU di questo grafico mostrano la dimensione del modello della funzionalità di Mix-N-Match (pre-match) di Gemma 3N.

Sbloccare nuove esperienze in movimento

Gemma 3n consente una nuova ondata di applicazioni intelligenti e in viaggio consentendo agli sviluppatori di:

Costruisci esperienze dal vivo e interattive che comprendono e rispondono a segnali visivi e uditivi in tempo reale dall'ambiente dell'utente.

2. Potenza più profonda comprensione e generazione di testo contestuale utilizzando ingressi combinati audio, immagine, video e testo, tutti elaborati privatamente sul dispositivo.

3. Sviluppa applicazioni avanzate audio-centrichetra cui trascrizione vocale in tempo reale, traduzione e interazioni ricche guidate dalla voce.

Ecco una panoramica e i tipi di esperienze che puoi costruire:

Costruire in modo responsabile, insieme

Il nostro impegno per lo sviluppo responsabile dell'IA è fondamentale. Gemma 3N, come tutti i modelli Gemma, sono stati sottoposti a rigorosi valutazioni di sicurezza, governance dei dati e allineamento alla messa a punto con le nostre politiche di sicurezza. Approcciomo i modelli aperti con un'attenta valutazione del rischio, perfezionando continuamente le nostre pratiche man mano che il panorama dell'IA si evolve.

Inizia: Anteprima Gemma 3n oggi

Siamo entusiasti di mettere Gemma 3n nelle tue mani attraverso un'anteprima a partire da oggi:

Accesso iniziale (disponibile ora):

Esplorazione basata su cloud con Google AI Studio: Prova Gemma 3n direttamente nel browser Google per studiare – Nessuna configurazione necessaria. Esplora istantaneamente le sue funzionalità di input di testo.

Sviluppo sul dispositivo con Google AI Edge: Per gli sviluppatori che desiderano integrare Gemma 3n a livello locale, Google AI Edge Fornisce strumenti e librerie. Oggi puoi iniziare con le capacità di comprensione/generazione di testo e immagine.

Gemma 3N segna il prossimo passo nell'accesso democratizzante all'intelligenza artificiale all'avanguardia ed efficiente. Siamo incredibilmente entusiasti di vedere cosa costruirai mentre rendiamo questa tecnologia progressivamente disponibile, a partire dall'anteprima di oggi.

Esplora questo annuncio e tutti gli aggiornamenti di Google I/O 2025 su io.google A partire dal 22 maggio.

Fonte: 77b50d0-dot-gdm-deepmind-com-prod.appspot.com