Google inaugura l’era dell’intelligenza artificiale degli agenti | Intelligenza-Artificiale

Indice contenuti

Il CEO di Google Sundar Pichai ha annunciato il lancio di Gemini 2.0, un modello che rappresenta il prossimo passo nell'ambizione di Google di rivoluzionare l'intelligenza artificiale.

Un anno dopo l’introduzione del modello Gemini 1.0, questo importante aggiornamento incorpora capacità multimodali migliorate, funzionalità di agenti e strumenti utente innovativi progettati per ampliare i confini della tecnologia basata sull’intelligenza artificiale.

Un salto verso l'intelligenza artificiale trasformativa

Riflettendo sulla missione di Google, durata 26 anni, volta a organizzare e rendere accessibili le informazioni a livello mondiale, Pichai ha osservato: “Se Gemini 1.0 riguardava l'organizzazione e la comprensione delle informazioni, Gemini 2.0 mira a renderle molto più utili”.

Gemini 1.0, rilasciato nel dicembre 2022, si è distinto per essere il primo modello di intelligenza artificiale multimodale nativa di Google. La prima iterazione eccelleva nella comprensione ed elaborazione di testo, video, immagini, audio e codice. La sua versione 1.5 migliorata è stata ampiamente adottata dagli sviluppatori per la sua comprensione del contesto a lungo termine, consentendo applicazioni come NotebookLM incentrato sulla produttività.

Ora, con Gemini 2.0, Google mira ad accelerare il ruolo dell’intelligenza artificiale come assistente universale in grado di generare immagini e audio nativi, ragionamento e pianificazione migliori e capacità decisionali nel mondo reale. Nelle parole di Pichai, lo sviluppo rappresenta l’alba di una “era degli agenti”.

“Abbiamo investito nello sviluppo di modelli più agenti, il che significa che possono comprendere meglio il mondo che ti circonda, pensare più passi avanti e agire per tuo conto, con la tua supervisione”, ha spiegato Pichai.

Gemini 2.0: funzionalità principali e disponibilità

Al centro dell'annuncio di oggi c'è la versione sperimentale di Gemini 2.0 Flash, il modello di punta della seconda generazione di Gemini. Si basa sulle basi gettate dai suoi predecessori, offrendo tempi di risposta più rapidi e prestazioni avanzate.

Gemini 2.0 Flash supporta input e output multimodali, inclusa la capacità di generare immagini native insieme al testo e produrre audio multilingue con sintesi vocale orientabile. Inoltre, gli utenti possono trarre vantaggio dall'integrazione di strumenti nativi come Ricerca Google e persino da funzioni di terze parti definite dall'utente.

Gli sviluppatori e le aziende avranno accesso a Gemini 2.0 Flash tramite l'API Gemini in Studio sull'intelligenza artificiale di Google E IA del verticementre è previsto un rilascio più ampio dei modelli di dimensioni più grandi nel gennaio 2024.

Per l'accessibilità globale, l'app Gemini ora presenta una versione ottimizzata per la chat del modello sperimentale Flash 2.0. I primi utenti potranno sperimentare questo assistente aggiornato su desktop e dispositivi mobili, con il lancio dell'app mobile imminente.

Anche prodotti come Ricerca Google verranno migliorati con Gemini 2.0, sbloccando la capacità di gestire query complesse come problemi di matematica avanzati, richieste di codifica e domande multimodali.

Suite completa di innovazioni IA

Il lancio di Gemini 2.0 arriva con nuovi interessanti strumenti che ne mettono in mostra le capacità.

Una di queste funzionalità, Deep Research, funziona come un assistente di ricerca sull’intelligenza artificiale, semplificando il processo di indagine su argomenti complessi compilando le informazioni in report completi. Un altro aggiornamento migliora la ricerca con panoramiche AI abilitate per Gemini che affrontano query utente complesse e in più passaggi.

Il modello è stato addestrato utilizzando le Tensor Processing Unit (TPU) di sesta generazione di Google, note come Trillium, che secondo Pichai “alimentano il 100% dell'addestramento e dell'inferenza di Gemini 2.0”.

Trillium è adesso disponibile per gli sviluppatori esterni, consentendo loro di beneficiare della stessa infrastruttura che supporta i progressi di Google.

Esperienze d'azione pionieristiche

Ad accompagnare Gemini 2.0 ci sono prototipi sperimentali “agentici” costruiti per esplorare il futuro della collaborazione uomo-intelligenza artificiale, tra cui:

Progetto Astra: un assistente AI universale

Presentato per la prima volta all'I/O all'inizio di quest'anno, Project Astra sfrutta la comprensione multimodale di Gemini 2.0 per migliorare le interazioni IA nel mondo reale. Tester attendibili hanno testato l'assistente su Android, offrendo feedback che hanno contribuito a perfezionare il dialogo multilingue, la conservazione della memoria e l'integrazione con strumenti Google come Ricerca, Lens e Maps. Astra ha anche dimostrato una latenza di conversazione quasi umana, con ulteriori ricerche in corso per la sua applicazione nella tecnologia indossabile, come il prototipo di occhiali AI.

Project Mariner: ridefinire l'automazione web

Project Mariner è un assistente sperimentale di navigazione web che utilizza la capacità di Gemini 2.0 di ragionare su testo, immagini ed elementi interattivi come moduli all'interno di un browser. Nei test iniziali, ha raggiunto una percentuale di successo dell'83,5% sul benchmark WebVoyager per il completamento delle attività web end-to-end. I primi tester che utilizzano un'estensione Chrome stanno contribuendo a perfezionare le capacità di Mariner mentre Google valuta le misure di sicurezza che garantiscono che la tecnologia rimanga sicura e facile da usare.

Jules: un agente di codifica per sviluppatori

Jules, un assistente basato sull'intelligenza artificiale creato per gli sviluppatori, si integra direttamente nei flussi di lavoro GitHub per affrontare le sfide di codifica. Può proporre autonomamente soluzioni, generare piani ed eseguire attività basate su codice, il tutto sotto la supervisione umana. Questo sforzo sperimentale fa parte dell'obiettivo a lungo termine di Google di creare agenti AI versatili in vari domini.

Applicazioni di gioco e non solo

Estendendo la portata di Gemini 2.0 agli ambienti virtuali, Google DeepMind sta lavorando con partner di gioco come Supercell su agenti di gioco intelligenti. Questi compagni sperimentali di intelligenza artificiale possono interpretare le azioni di gioco in tempo reale, suggerire strategie e persino accedere a una conoscenza più ampia tramite la ricerca. Sono inoltre in corso ricerche su come il ragionamento spaziale di Gemini 2.0 potrebbe supportare la robotica, aprendo le porte ad applicazioni future nel mondo fisico.

Affrontare la responsabilità nello sviluppo dell’IA

Con l’espansione delle capacità dell’intelligenza artificiale, Google sottolinea l’importanza di dare priorità alla sicurezza e alle considerazioni etiche.

Google afferma che Gemini 2.0 è stato sottoposto ad approfondite valutazioni dei rischi, rafforzate dalla supervisione del Comitato per la responsabilità e la sicurezza per mitigare i potenziali rischi. Inoltre, le sue capacità di ragionamento integrate lo consentono “red-teaming” avanzato, consentendo agli sviluppatori di valutare scenari di sicurezza e ottimizzare le misure di sicurezza su larga scala.

Google sta inoltre esplorando misure di salvaguardia per tutelare la privacy degli utenti, prevenire usi impropri e garantire che gli agenti di intelligenza artificiale rimangano affidabili. Ad esempio, Project Mariner è progettato per dare priorità alle istruzioni dell'utente resistendo al tempo stesso alle iniezioni di prompt dannose, prevenendo minacce come phishing o transazioni fraudolente. Nel frattempo, i controlli sulla privacy in Project Astra semplificano la gestione dei dati della sessione e delle preferenze di eliminazione da parte degli utenti.

Pichai ha riaffermato l'impegno dell'azienda per lo sviluppo responsabile, affermando: “Crediamo fermamente che l'unico modo per costruire l'intelligenza artificiale sia essere responsabili fin dall'inizio”.

Con la versione Gemini 2.0 Flash, Google si avvicina alla sua visione di costruire un assistente universale in grado di trasformare le interazioni tra domini.

Vedi anche: Disapprendimento automatico: i ricercatori fanno sì che i modelli di intelligenza artificiale “dimentichino” i dati