
All’inizio di quest’anno, noi menzionato che stiamo offrendo funzionalità di utilizzo del computer agli sviluppatori tramite l’API Gemini. Oggi rilasciamo il Modello di utilizzo del computer Gemini 2.5il nostro nuovo modello specializzato basato sulle capacità di comprensione e ragionamento visivo di Gemini 2.5 Pro che alimenta gli agenti in grado di interagire con le interfacce utente (UI). Supera le principali alternative su numerosi benchmark di controllo web e mobile, tutti con una latenza inferiore. Gli sviluppatori possono accedere a queste funzionalità tramite l’API Gemini in Google per studiare E IA del vertice.
Sebbene i modelli di intelligenza artificiale possano interfacciarsi con il software tramite API strutturate, molte attività digitali richiedono ancora l’interazione diretta con le interfacce utente grafiche, ad esempio la compilazione e l’invio di moduli. Per completare queste attività, gli agenti devono navigare nelle pagine Web e nelle applicazioni proprio come fanno gli esseri umani: facendo clic, digitando e scorrendo. La capacità di compilare moduli in modo nativo, manipolare elementi interattivi come menu a discesa e filtri e operare dietro login è un passo successivo cruciale nella creazione di agenti potenti e generici.
Come funziona
Le funzionalità principali del modello sono esposte tramite il nuovo strumento “computer_use” nell’API Gemini e dovrebbero essere gestite all’interno di un ciclo. Gli input per lo strumento sono la richiesta dell’utente, lo screenshot dell’ambiente e una cronologia delle azioni recenti. L’input può anche specificare se escludere funzioni dal file elenco completo delle azioni dell’interfaccia utente supportate oppure specificare ulteriori funzioni personalizzate da includere.
Fonte: deepmind.google