Anthropic svela i nuovi modelli di intelligenza artificiale di Claude e il "controllo computerizzato" | Intelligenza-Artificiale

Antropico ha annunciato aggiornamenti al suo portfolio AI, incluso un modello Claude 3.5 Sonnet migliorato e l'introduzione di Claude 3.5 Haiku, insieme a una funzionalità di “controllo del computer” nella beta pubblica.

Il Claude 3.5 Sonnet aggiornato dimostra miglioramenti sostanziali in tutti i parametri, con progressi particolarmente notevoli nelle capacità di codifica. Il modello ha raggiunto un impressionante 49,0% sul benchmark SWE-bench Verified, superando tutti i modelli disponibili al pubblico, comprese le offerte di OpenAI e i sistemi di codifica specializzati.

Con uno sviluppo pionieristico, Anthropic ha introdotto funzionalità di utilizzo del computer che consentono a Claude di interagire con i computer in modo simile agli esseri umani: visualizzare schermi, controllare i cursori, fare clic e digitare. Questa funzionalità, attualmente in versione beta pubblica, contrassegna Claude 3.5 Sonnet come il primo modello di intelligenza artificiale di frontiera a offrire tale funzionalità.

Diverse importanti aziende tecnologiche hanno già iniziato a implementare queste nuove funzionalità.

“Il Claude 3.5 Sonnet aggiornato rappresenta un passo avanti significativo per la codifica basata sull'intelligenza artificiale”, riferisce GitLab, che ha notato un ragionamento più forte fino al 10% nei casi d'uso senza latenza aggiuntiva.

Il nuovo modello Claude 3.5 Haiku, il cui rilascio è previsto per la fine di questo mese, corrisponde alle prestazioni del precedente Claude 3 Opus pur mantenendo efficienza in termini di costi e velocità. In particolare ha ottenuto il 40,6% su SWE-bench Verified, superando molti modelli concorrenti tra cui l'originale Claude 3.5 Sonnet e GPT-4o.

Benchmark dei modelli che confrontano i nuovi modelli Claude AI di Anthropic. — *(Credito: antropico)*

Per quanto riguarda le capacità di controllo del computer, Anthropic ha adottato un approccio misurato, riconoscendo i limiti attuali ed evidenziandone il potenziale. Nel benchmark OSWorld, che valuta la navigazione nell'interfaccia del computer, Claude 3.5 Sonnet ha ottenuto il 14,9% nei test solo screenshot, superando significativamente il 7,8% del sistema migliore.

Gli sviluppi sono stati sottoposti a rigorosi valutazioni di sicurezzacon test pre-implementazione condotti in collaborazione con gli istituti di sicurezza AI degli Stati Uniti e del Regno Unito. Anthropic sostiene che lo standard ASL-2, come dettagliato nella sua Politica di Scaling Responsabile, rimane appropriato per questi modelli.

(Credito immagine: antropico)

Vedi anche: IBM presenta i modelli AI Granite 3.0 con impegno open source