GPT-5.5 è il modello di intelligenza artificiale agentica più capace di OpenAI finora | Intelligenza-Artificiale

Indice contenuti

OpenAI ha lanciato GPT-5.5 il 23 aprile come quella che definisce “una nuova classe di intelligenza per il lavoro reale e il potenziamento degli agenti” e l’inquadratura è intenzionale. OpenAI afferma che è il modello di intelligenza artificiale ad agenti più capace fino ad oggi, costruito da zero per pianificare, utilizzare strumenti, controllare i propri risultati e svolgere le attività in modo indipendente.

GPT-5.5 è il primo modello base riqualificato dopo GPT-4.5, co-progettato con i sistemi rack-scale GB200 e GB300 NVL72 di NVIDIA. L’azienda afferma che la differenza pratica è che quando si utilizza GPT5.5, le attività che in precedenza richiedevano più istruzioni e la “correzione del percorso” umana possono ora essere gestite in modo più completo. Il modello è disponibile su Plus, Pro, Business e Utenti aziendali in ChatGPT e Codice. L’accesso all’API è seguito il 24 aprile.

I parametri di riferimento

La più forte dichiarazione di prestazioni di OpenAI riguarda Terminal-Bench 2.0, un benchmark che testa i flussi di lavoro da riga di comando che richiedono pianificazione e coordinamento degli strumenti in un ambiente sandbox. GPT-5.5 ha ottenuto un punteggio dell’82,7%, contro il 75,1% di GPT-5.4 e il 69,4% di Claude Opus 4.7.

Su SWE-Bench Pro, che valuta la risoluzione dei problemi di GitHub, GPT-5.5 raggiunge il 58,6%, risolvendo più problemi in un singolo passaggio rispetto alle versioni precedenti. OpenAI ha anche introdotto Expert-SWE, un benchmark interno in cui le attività richiedono un tempo di completamento umano medio stimato di 20 ore. GPT-5.5 ottiene un punteggio del 73,1%, rispetto al 68,5% di GPT-5.4.

Nel ragionamento a lungo contesto, MRCR v2 a un milione di token, un benchmark di recupero che verifica se un modello può individuare una risposta specifica sepolta in un documento di grandi dimensioni, GPT-5.5 ottiene un punteggio del 74,0%, contro il 36,6% di GPT-5.4.

Tuttavia, su MCP Atlas, il benchmark di utilizzo degli strumenti Model Context Protocol di Scale AI, Claude Opus 4.7 è in testa al 79,1% e nessun punteggio viene registrato da GPT-5.5. OpenAI ha incluso questa assenza nella propria tabella di riferimento, il che segnala almeno la sua fiducia nel quadro generale.

Efficienza dei token, realtà dei prezzi

L’accesso all’API ha un prezzo di 5 dollari per milione di token di input e 30 dollari per milione di token di output, esattamente il doppio delle tariffe per GPT-5.4. La difesa di OpenAI è che GPT-5.5 completa le stesse attività del Codex con meno token di GPT-5.4, aumentando i costi effettivi di circa il 20% una volta presa in considerazione la sua efficienza, un’affermazione convalidata dal laboratorio di test indipendente Artificial Analysis.

GPT-5.5 Pro, disponibile per gli utenti Pro, Business ed Enterprise, ha un prezzo di 30 dollari per milione di token di input e 180 dollari per milione di token di output. Applica ulteriore calcolo parallelo del tempo di test su problemi più difficili e guida l’elenco dei modelli disponibili al pubblico su SfogliaComp, il benchmark di navigazione web con agenti di OpenAI, al 90,1%.

Vale la pena testare l’efficienza dei token rispetto ai carichi di lavoro effettivi prima di impegnarsi in un cambio di modello. Con 10 milioni di token di output al mese, lo standard GPT-5.5 costa 300 dollari contro i 250 dollari di Claude Opus 4.7, un 20% che ripaga solo se le prestazioni agentive superiori del modello significano meno iterazioni delle attività e meno tentativi, con i calcoli che variano a seconda del caso d’uso.

In pratica

Open AI afferma che oltre l’85% dei dipendenti ora utilizza Codex settimanalmente nei propri dipartimenti, compresi ingegneria e marketing. In un esempio, il team delle comunicazioni ha utilizzato GPT-5.5 per elaborare sei mesi di dati sulle richieste di intervento, in cui il modello è stato in grado di creare un quadro di punteggio e di rischio per aiutare ad automatizzare le approvazioni a basso rischio.

Greg Brockman ha descritto il rilascio come “un vero passo avanti verso il tipo di elaborazione che ci aspettiamo in futuro”, e il capo scienziato Jakub Pachocki ha osservato che gli ultimi due anni di progresso del modello sono sembrati “sorprendentemente lenti”.

OpenAI afferma che GPT-5.5 corrisponde alla latenza per token di GPT-5.4 nel servizio di produzione pur funzionando a un livello di intelligenza più elevato; i modelli più grandi e più capaci sono spesso più lenti nel servire, ma in questo caso questo compromesso è stato evitato.

Se i lead di riferimento si tradurranno in guadagni di produzione per i team che gestiscono pipeline di agenti reali è la domanda a cui occorreranno le prossime settimane per rispondere adeguatamente. Il punteggio Terminal-Bench è promettente per gli agenti terminali non presidiati e l’automazione DevOps. Vale la pena tenere d’occhio il divario di MCP Atlas per chiunque si basi fortemente sull’orchestrazione dell’uso degli strumenti.

Vedi anche: OpenAI porta GPT-5.5 nel Codex per attività di codificae

(Fonte immagine: “‘The Agent’ Fossil Watch” di MarkGregory007 è concesso in licenza sotto CC BY-NC-SA 2.0.)

Banner per gli eventi AI & Big Data Expo di TechEx.

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici tra cui Fiera sulla sicurezza informatica e sul cloud. Clic Qui per ulteriori informazioni

AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.

Fonte: www.artificialintelligence-news.com