Annuncio dell'anteprima di Gemma 3n: IA potente, efficiente e mobile-first | Intelligenza-Artificiale

Indice contenuti

Dopo gli entusiasmanti lanci di Gemma 3 E Gemma3QATcon la nostra famiglia di modelli aperti all’avanguardia in grado di funzionare su un singolo acceleratore cloud o desktop, stiamo spingendo ulteriormente la nostra visione di un’intelligenza artificiale accessibile. Gemma 3 ha offerto potenti funzionalità agli sviluppatori e ora stiamo estendendo questa visione a un’intelligenza artificiale in tempo reale altamente capace che opera direttamente sui dispositivi che usi ogni giorno: telefoni, tablet e laptop.

Per potenziare la prossima generazione di IA on-device e supportare una vasta gamma di applicazioni, incluso il miglioramento delle capacità di Gemini Nano, abbiamo progettato una nuova architettura all’avanguardia. Questa base di nuova generazione è stata creata in stretta collaborazione con leader dell’hardware mobile come Qualcomm Technologies, MediaTek e System LSI di Samsung ed è ottimizzata per un’intelligenza artificiale multimodale velocissima, consentendo esperienze veramente personali e private direttamente sul tuo dispositivo.

Gemma 3n è il nostro primo modello aperto basato su questa innovativa architettura condivisa, che consente agli sviluppatori di iniziare a sperimentare questa tecnologia oggi in una prima anteprima. La stessa architettura avanzata alimenta anche la prossima generazione di Gemelli Nanoche porta queste funzionalità a un’ampia gamma di funzioni nelle app Google e nel nostro ecosistema sul dispositivo e sarà disponibile entro la fine dell’anno. Gemma 3n ti consente di iniziare a costruire su queste basi che arriveranno sulle principali piattaforme come Android e Chrome.

Punteggi Chatbot Arena Elo

Questo grafico classifica i modelli AI in base ai punteggi Elo di Chatbot Arena; punteggi più alti (numeri in alto) indicano una maggiore preferenza dell’utente. Gemma 3n si colloca ai primi posti tra i modelli proprietari e aperti più popolari.

Gemma 3n sfrutta un’innovazione di Google DeepMind chiamata Per-Layer Embeddings (PLE) che offre una significativa riduzione dell’utilizzo della RAM. Sebbene il conteggio dei parametri grezzi sia 5B e 8B, questa innovazione consente di eseguire modelli più grandi su dispositivi mobili o di effettuare streaming live dal cloud, con un sovraccarico di memoria paragonabile a un modello 2B e 4B, il che significa che i modelli possono funzionare con un ingombro di memoria dinamico di soli 2 GB e 3 GB. Scopri di più nel nostro documentazione.

Esplorando Gemma 3n, gli sviluppatori possono ottenere un’anteprima delle funzionalità principali del modello aperto e delle innovazioni architetturali mobile-first che saranno disponibili su Android e Chrome con Gemini Nano.

In questo post esploreremo le nuove funzionalità di Gemma 3n, il nostro approccio allo sviluppo responsabile e come puoi accedere all’anteprima oggi stesso.

Funzionalità chiave di Gemma 3n

Progettato per esperienze IA veloci e a basso impatto in esecuzione localmente, Gemma 3n offre:

Prestazioni ed efficienza ottimizzate sul dispositivo: Gemma 3n inizia a rispondere circa 1,5 volte più velocemente sui dispositivi mobili con una qualità significativamente migliore (rispetto a Gemma 3 4B) e un ingombro di memoria ridotto ottenuto attraverso innovazioni come Per Layer Embedding, condivisione KVC e quantizzazione di attivazione avanzata.

Flessibilità “molti in 1”: Un modello con un’impronta di memoria attiva da 4B che include nativamente un sottomodello di memoria attiva nidificato all’avanguardia da 2B (grazie a Forme alimentari formazione). Ciò offre flessibilità per bilanciare dinamicamente prestazioni e qualità al volo senza ospitare modelli separati. Introduciamo inoltre la funzionalità mix’n’match in Gemma 3n per creare dinamicamente sottomodelli dal modello 4B che possano adattarsi in modo ottimale al tuo caso d’uso specifico e al relativo compromesso qualità/latenza. Restate sintonizzati per ulteriori informazioni su questa ricerca nel nostro prossimo rapporto tecnico.

Privacy al primo posto e pronto offline: L’esecuzione locale abilita funzionalità che rispettano la privacy dell’utente e funzionano in modo affidabile, anche senza una connessione Internet.

Comprensione multimodale estesa con audio: Gemma 3n è in grado di comprendere ed elaborare audio, testo e immagini e offre una comprensione video notevolmente migliorata. Le sue capacità audio consentono al modello di eseguire il riconoscimento vocale automatico (trascrizione) e la traduzione (discorso al testo tradotto) di alta qualità. Inoltre, il modello accetta input interlacciati tra modalità, consentendo la comprensione di complesse interazioni multimodali. (Implementazione pubblica in arrivo)

Funzionalità multilingue migliorate: Prestazioni multilingue migliorate, in particolare in giapponese, tedesco, coreano, spagnolo e francese. Ottime prestazioni riflesse su benchmark multilingue come il 50,1% su WMT24++ (ChrF).

Prestazioni MMLU

Questo grafico mostra le prestazioni MMLU rispetto alle dimensioni del modello della funzionalità mix-n-match (preaddestrata) di Gemma 3n.

Sbloccare nuove esperienze in movimento

Gemma 3n darà potere a una nuova ondata di applicazioni intelligenti e in movimento consentendo agli sviluppatori di:

Crea esperienze live e interattive che comprendono e rispondono ai segnali visivi e uditivi in tempo reale provenienti dall’ambiente dell’utente.

2. Potenzia una comprensione più profonda e generazione di testo contestuale utilizzando input combinati di audio, immagini, video e testo, il tutto elaborato privatamente sul dispositivo.

3. Sviluppa applicazioni avanzate incentrate sull’audiotra cui trascrizione vocale in tempo reale, traduzione e ricche interazioni vocali.

Ecco una panoramica e i tipi di esperienze che puoi creare:

Costruire responsabilmente, insieme

Il nostro impegno per lo sviluppo responsabile dell’IA è fondamentale. Gemma 3n, come tutti i modelli Gemma, è stato sottoposto a rigorose valutazioni di sicurezza, governance dei dati e allineamento preciso con le nostre politiche di sicurezza. Ci avviciniamo ai modelli aperti con un’attenta valutazione del rischio, perfezionando continuamente le nostre pratiche man mano che il panorama dell’intelligenza artificiale si evolve.

Inizia: visualizza in anteprima Gemma 3n oggi

Siamo entusiasti di mettere Gemma 3n nelle vostre mani attraverso un’anteprima a partire da oggi:

Accesso iniziale (disponibile ora):

Esplorazione basata sul cloud con Google AI Studio: Prova Gemma 3n direttamente nel tuo browser su Studio sull’intelligenza artificiale di Google – nessuna configurazione necessaria. Esplora immediatamente le sue capacità di immissione di testo.

Sviluppo su dispositivo con Google AI Edge: Per gli sviluppatori che desiderano integrare Gemma 3n localmente, Google AI Edge fornisce strumenti e librerie. Puoi iniziare oggi stesso con le funzionalità di comprensione/generazione di testo e immagini.

Gemma 3n segna il passo successivo nella democratizzazione dell’accesso a un’intelligenza artificiale all’avanguardia ed efficiente. Siamo incredibilmente entusiasti di vedere cosa costruirai man mano che renderemo questa tecnologia progressivamente disponibile, a partire dall’anteprima di oggi.

Esplora questo annuncio e tutti gli aggiornamenti di Google I/O 2025 io.google a partire dal 22 maggio.

Fonte: deepmind.google