Una nuova era per agenti intelligenti e codifica AI | Intelligenza-Artificiale

Indice contenuti

Antropico ha svelato la sua ultima famiglia di modelli Claude 4 e sembra un salto per chiunque costruisca assistenti di intelligenza artificiale o codifica di nuova generazione. Le stelle dello spettacolo sono Claude Opus 4, la nuova centrale elettrica e Claude Sonnet 4, progettate per essere un tuttofare intelligente.

Antropico non è timido per le sue ambizioni, affermando che questi modelli sono orientati a “far avanzare le strategie di intelligenza artificiale dei nostri clienti”. Stanno posizionando Opus 4 come strumento per “spingere i confini in codifica, ricerca, scrittura e scoperta scientifica”, mentre Sonnet 4 viene fatturato come un “aggiornamento istantaneo da Sonnet 3.7”, pronto a portare le “prestazioni di frontiera nei casi di utilizzo quotidiano”.

Claude Opus 4: The New Coding Champ

Quando Antropic chiama Claude Opus 4 il suo “modello più potente di sempre e il miglior modello di codifica al mondo”, ti siedi e ti accorgi. E hanno i numeri per sostenerlo, con Opus 4 in cima alle classifiche su test cruciali del settore, colpendo il 72,5% su SWE-Bench e il 43,2% su banco terminale.

Ma non si tratta solo di sprint rapidi. Opus 4 è costruito per il lungo raggio, progettato per “prestazioni sostenute su compiti di lunga durata che richiedono uno sforzo focalizzato e migliaia di passaggi”. Immagina un'intelligenza artificiale che può “funzionare continuamente per diverse ore”, ciò è ciò che afferma antropico.

Questo dovrebbe essere un enorme passo avanti rispetto ai precedenti modelli di sonetto e potrebbe espandere ciò che gli agenti di intelligenza artificiale possono raggiungere, affrontando problemi che richiedono una reale persistenza.

Claude Sonnet 4: per AI quotidiano e lavoro agente

Mentre Opus 4 è il campione dei pesi massimi, Claude Sonnet 4 si preannuncia come un cavallo di battaglia versatile, promettendo una spinta significativa per una vasta gamma di applicazioni. Il feedback precoce da parte di coloro che hanno avuto una sbirciatina sono luminosi.

Ad esempio, Girub “Dice Claude Sonnet 4 sale negli scenari agenti” ed è così colpito da “pianificare di introdurlo come modello di base per il nuovo agente di codifica in Github Copilot.” Questa è una forte approvazione.

Anche il commentatore tecnologico Manus è impressionato, evidenziando i suoi “miglioramenti nelle seguenti istruzioni complesse, ragionamenti chiari e output estetici”.

Le vibrazioni positive continuano con Igent, che “riporta Sonnet 4 eccelle nello sviluppo autonomo delle app multi-caratteristiche, nonché una navigazione di risoluzione dei problemi e code sostanzialmente migliorata, riducendo gli errori di navigazione dal 20% a quasi zero”. Questo è un punto di svolta per i flussi di lavoro di sviluppo.

SourceGraph è altrettanto ottimista, vedendo il modello come un “salto sostanziale nello sviluppo del software: sostenendo in pista più a lungo, comprendendo i problemi più profondamente e fornendo una qualità del codice più elegante”.

Il codice di aumento ha visto “tassi di successo più elevati, modifiche al codice più chirurgico e un lavoro più attento attraverso compiti complessi”, portandoli a rendere Sonnet 4 la loro “scelta migliore per il loro modello principale”.

Modalità ibride e delizie per sviluppatori

Uno dei pezzi davvero intelligenti sulla famiglia Claude 4 è la sua natura ibrida. Sia Opus 4 che Sonnet 4 possono funzionare in due marce: uno per quelle risposte quasi istantanee di cui abbiamo spesso bisogno e un altro che consente di “pensiero esteso per un ragionamento più profondo”.

Questa modalità di pensiero più profonda fa parte dei piani Claude Pro, Max, Team e Enterprise. Buone notizie per tutti, tuttavia, Sonnet 4, completa di questo pensiero esteso, sarà anche disponibile per gli utenti gratuiti, il che è una mossa fantastica per rendere più accessibile l'intelligenza artificiale di alto livello.

Antropico sta inoltre implementando alcuni nuovi gustosi strumenti per gli sviluppatori sulla sua API, mirando chiaramente a potenziare la creazione di agenti di intelligenza artificiale più sofisticati:

Strumento di esecuzione del codice: questo consente ai modelli effettivamente eseguire il codice, aprendo tutti i tipi di possibilità per applicazioni interattive e di risoluzione dei problemi.
Connettore MCP: introdotto da Antropic, MCP Standardise Exchange di contesto tra assistenti di intelligenza artificiale e ambienti software.
Files API: questo renderà molto più semplice per l'IA lavorare direttamente con i file, il che è un grosso problema per molte attività del mondo reale.
Maggiore prompt: gli sviluppatori saranno in grado di memorizzare nella cache le istruzioni per un massimo di un'ora. Questo potrebbe sembrare piccolo, ma può fare una vera differenza per la velocità ed efficienza, soprattutto per le domande usate di frequente.

Guidare il pacchetto in performance del mondo reale

Antropico è desideroso di sottolineare che i suoi “modelli Claude 4 guidano su SWE-Bench Verified, un punto di riferimento per le prestazioni su attività di ingegneria del software reali”. Oltre alla codifica, sottolineano che questi modelli “offrono prestazioni forti attraverso codifica, ragionamento, capacità multimodali e compiti agenti”.

Confronto di riferimento tra i modelli Claude 4 Opus e Sonnet AI insieme a rivali tra cui Openai O3 e Gemini 2.5 Pro.

Nonostante i salti in capacità, Antropic sta trattenendo la linea sui prezzi. Claude Opus 4 ti farà tornare indietro di token di input di $ 15 per milione e token di uscita di $ 75 per milione. Claude Sonnet 4, l'opzione più accessibile, ha un prezzo di token di input di $ 3 per milione e token di output di $ 15 per milione. Questa coerenza sarà accolta dagli utenti esistenti.

Sia Claude Opus 4 che Sonnet 4 sono pronti per andare tramite l'API antropica, e stanno anche spuntando su Amazon Bedrock e Vertex AI di Google Cloud. Questa ampia disponibilità significa che aziende e sviluppatori in tutto il mondo possono iniziare a sperimentare e integrare questi nuovi strumenti abbastanza facilmente.

Antropico sta chiaramente raddoppiando il rendimento dell'IA più capace, in particolare nei complessi regni della codifica e del comportamento degli agenti autonomi. Con questi nuovi modelli e strumenti per sviluppatori, il potenziale per l'innovazione ha appena avuto una seria spinta.

(Credito immagine: antropico)

Vedi anche: Dettagli perdita dell'ambizioso dispositivo Openai di Jony Ive

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.

Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.

Fonte: www.artificialintelligence-news.com