
Amazon ha introdotto Nova Act, un modello AI avanzato progettato per agenti più intelligenti che possono eseguire attività all'interno dei browser Web.
Mentre i modelli di linguaggio di grandi dimensioni hanno reso popolare il concetto di “agenti” come strumenti che rispondono a query o recuperano informazioni tramite metodi come la generazione del recupero (RAG), Amazon prevede qualcosa di più robusto. La società definisce gli agenti non solo come i soccorritori, ma come entità in grado di svolgere attività tangibili e in più fasi in diversi ambienti digitali e fisici.
“Il nostro sogno è che gli agenti svolgano attività ad ampio raggio, complesse e in più passi come l'organizzazione di un matrimonio o la gestione di compiti IT complessi per aumentare la produttività aziendale”, ha affermato Amazon.
Le attuali offerte di mercato non sono spesso all'altezza, con molti agenti che richiedono una supervisione umana continua e la loro funzionalità dipende dall'integrazione completa dell'API, qualcosa di non fattibile per tutti i compiti. Nova Act è la risposta di Amazon a questi limiti.
Accanto al modello, Amazon sta rilasciando un'anteprima di ricerca dell'Amazon Nova Act SDK. Utilizzando l'SDK, gli sviluppatori possono creare agenti in grado di automatizzare le attività Web come l'invio di notifiche fuori office, la pianificazione del calendario o l'abilitazione di risposte e-mail automatiche.
L'SDK mira a scomporre flussi di lavoro complessi in “comandi atomici” affidabili come la ricerca, il check -out o l'interazione con elementi di interfaccia specifici come discese o popup. È possibile aggiungere istruzioni dettagliate per perfezionare questi comandi, consentendo agli sviluppatori di istruire, ad esempio, a un agente di bypassare un upsell assicurativo durante il checkout.
Per migliorare ulteriormente l'accuratezza, l'SDK supporta la manipolazione del browser tramite drammaturgo, chiamate API, integrazioni di Python e threading parallelo per superare i ritardi del carico della pagina Web.
Nova Act: Performance eccezionale sui parametri di riferimento
A differenza di altri modelli generativi che mostrano l'accuratezza medio su compiti complessi, NOVA Act dà la priorità all'affidabilità. Amazon evidenzia i punteggi impressionanti del suo modello di oltre il 90% sulle valutazioni interne per funzionalità specifiche che in genere sfidano i concorrenti.
Nova Act ha raggiunto uno 0,939 quasi perfetto sul benchmark di testo Web Schermate, che misura le istruzioni del linguaggio naturale per le interazioni basate sul testo, come la regolazione delle dimensioni dei caratteri. Modelli in competizione come Claude 3.7 Sonnet (0,900) e Openi's CUA (0,883) tracceno da margini significativi.
Allo stesso modo, Nova Act ha segnato 0,879 nel benchmark delle icone Web di Schermate, che testa le interazioni con elementi visivi come stelle di valutazione o icone. Mentre il test web di GroundUI, progettato per valutare la competenza di un'intelligenza artificiale nella navigazione di vari elementi dell'interfaccia utente, ha mostrato una concorrenza leggermente inclinabile di Nova Act, Amazon lo vede come un'area matura per il miglioramento man mano che il modello si evolve.
Amazon sottolinea la sua attenzione sulla fornitura di affidabilità pratica. Una volta che un agente costruito utilizzando Nova Act funziona come previsto, gli sviluppatori possono distribuirlo senza testa, integrarlo come API o persino pianificarlo per eseguire compiti in modo asincrono. In un caso d'uso dimostrato, un agente ordina automaticamente un'insalata per la consegna ogni martedì sera senza richiedere un intervento in corso degli utenti.
Amazon stabilisce la sua visione per agenti AI scalabili e intelligenti
Una delle caratteristiche straordinarie di Nova Act è la sua capacità di trasferire la sua comprensione dell'interfaccia utente in nuovi ambienti con una formazione aggiuntiva minima. Amazon ha condiviso un'istanza in cui Nova Act si è esibito in modo mirabilmente nei giochi basati su browser, anche se la sua formazione non aveva incluso esperienze di videogiochi. Questa adattabilità posiziona Nova come agente versatile per diverse applicazioni.
Questa capacità è già sfruttata nell'ecosistema di Amazon. All'interno di Alexa+, Nova Act consente alla navigazione web auto-diretta di completare le attività per gli utenti, anche quando l'accesso API non è abbastanza completo. Ciò rappresenta un passo verso assistenti di intelligenza artificiale più intelligenti che possono funzionare in modo indipendente, sfruttando le loro abilità in modi più dinamici.
Amazon è chiaro che Nova Act rappresenta la prima fase in una più ampia missione per creare agenti di intelligenza artificiale intelligenti e affidabili in grado di gestire compiti sempre più complessi e multipli.
Espandendosi oltre le semplici istruzioni, l'attenzione di Amazon è sugli agenti di formazione attraverso l'apprendimento del rinforzo in vari scenari del mondo reale piuttosto che dimostrazioni eccessivamente semplicistiche. Questo modello di base funge da checkpoint in un curriculum di addestramento a lungo termine per i modelli Nova, indicando l'ambizione dell'azienda di rimodellare il panorama dell'agente AI.
“I casi d'uso più preziosi per gli agenti devono ancora essere costruiti”, ha osservato Amazon. “I migliori sviluppatori e designer li scopriranno. Questa anteprima di ricerca del nostro NOVA Act SDK ci consente di iterare insieme a questi costruttori attraverso prototipi rapidi e feedback iterativi.”
Nova Act è un passo per rendere gli agenti di intelligenza artificiale davvero utili per compiti complessi e digitali. Dal ripensamento dei parametri di riferimento all'enfatizzazione dell'affidabilità, la sua filosofia di progettazione è incentrata sul consentire agli sviluppatori di andare oltre ciò che è possibile con gli strumenti di generazione attuale.
Vedi anche: Antropico fornisce approfondimenti sulla “Biologia AI” di Claude

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.
Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.
Fonte: www.artificialintelligence-news.com