Anthropic distribuisce Claude Sonetto 5, Favola e Miti restaurati | Intelligenza-Artificiale

Indice contenuti

Antropico ha lanciato Claude Sonnet 5 e ripristinato l’accesso ai suoi modelli di frontiera Fable e Mythos a seguito di una revisione federale del controllo delle esportazioni.

La decisione segna la conclusione del una pausa operativa di diciotto giorni innescato da una direttiva sul controllo delle esportazioni del governo degli Stati Uniti il 12 giugno, che ha costretto la sospensione temporanea dei sistemi a più alta capacità di Anthropic.

I funzionari governativi hanno adottato la restrizione dopo che i ricercatori di Amazon hanno documentato un metodo per aggirare i controlli di sicurezza di Fable 5, facendo sì che il modello identifichi le vulnerabilità del software e fornisca il codice di sfruttamento. Da allora Anthropic ha sviluppato un classificatore automatizzato aggiornato per correggere la vulnerabilità, aprendo la strada a un lancio commerciale completo sulla sua piattaforma, infrastruttura cloud e reti di partner.

La sospensione temporanea di Fable 5 e Mythos 5 ha evidenziato le pressioni normative a cui devono far fronte i sistemi di intelligence di frontiera. Quando il mandato di controllo delle esportazioni è entrato in vigore, la mancanza di sistemi di verifica della nazionalità in tempo reale ha richiesto un totale blackout dell’accesso per tutti gli utenti globali.

Le valutazioni di sicurezza condotte durante l’arresto hanno confermato che il comportamento di identificazione delle vulnerabilità non era esclusivo di Fable 5. Architetture più vecchie e meno capaci di più fornitori, tra cui Claude Opus 4.8, GPT-5.5 e Kimi K2.7, hanno duplicato i risultati esatti.

Per risolvere la direttiva federale, gli ingegneri hanno addestrato un classificatore di sicurezza automatizzato mirato allo specifico meccanismo di bypass segnalato da Amazon. Questo livello software funziona con un ampio margine di sicurezza, identificando e bloccando i messaggi ambigui degli sviluppatori che mostrano una probabilità statistica di intenti dannosi. I dati di convalida interna indicano che il classificatore aggiornato impedisce la tecnica di sfruttamento segnalata in oltre il 99% delle prove.

Quando uno sviluppatore invia una richiesta che attiva questo limite, la piattaforma instrada automaticamente il carico di lavoro alla vecchia architettura Opus 4.8 per mantenere la continuità. Il margine di sicurezza ampliato introduce un netto compromesso per i team di ingegneri, poiché il sistema automatizzato segnala richieste benigne con maggiore frequenza durante lo sviluppo di applicazioni di routine e il debug del software.

Distribuzioni attive e flussi di lavoro degli agenti

Mentre i modelli di frontiera sono sottoposti a una rigorosa supervisione statale, l’attenzione commerciale immediata si concentra sul nuovo Claude Sonnet 5.

I team di ingegneri stanno trasferendo gli agenti autonomi a questo modello per ridurre le spese operative pur mantenendo un’elevata capacità di esecuzione. I dati sulle prestazioni confermano che il sistema esegue piani in più fasi, gestisce ambienti terminali e naviga nei browser Web senza intervento umano.

Prestazioni del modello e parametri di costo:

Modello	Panca SWE Pro	Banco terminale 2.1	Costo base di input*	Costo base di produzione*
Sonetto 5	63,2%	80,4%	$ 3,00	$ 15,00
Sonetto 4.6	58,1%	67,0%	$ 3,00	$ 15,00
Opera 4.8	69,2%	82,7%	$ 5,00	$ 25,00

*Costo per milione di token. Sonetto 5 prevede tariffe introduttive di $ 2,00 in ingresso / $ 10,00 in uscita fino al 31 agosto 2026.

Le implementazioni nel mondo reale dimostrano come le organizzazioni stanno implementando questa architettura all’interno di pipeline di sviluppo software live.

In Rakuten, i team tecnologici hanno implementato l’architettura contro decine delle richieste di pull del codice di produzione più impegnative dell’azienda. Il sistema ha elaborato ogni richiesta in modo indipendente, eseguendo test e verificando i risultati prima di presentare il codice completato agli ingegneri umani per l’approvazione strutturale finale.

L’azienda di automazione software Zapier ha integrato il sistema nei flussi di lavoro dei suoi prodotti principali per eseguire attività amministrative in più parti. In una distribuzione documentata, gli ingegneri hanno incaricato il modello di aggiornare i livelli di account Salesforce e successivamente di generare e trasmettere annunci di lancio ai contatti aziendali. Le architetture dei modelli precedenti spesso si bloccavano a metà di queste operazioni in più fasi, mentre il sistema attuale eseguiva l’intera sequenza end-to-end senza intervento umano.

Il fornitore di strumenti di sviluppo Zed ha utilizzato il sistema per automatizzare complesse procedure di debug. Durante le prove interne, i team di ingegneri hanno indirizzato il modello per indagare su un bug software attivo. Lavorando senza richieste esplicite o istruzioni passo passo, il sistema ha generato in modo indipendente uno script di test riprodotto, ha applicato la correzione del codice necessaria e ha nascosto le modifiche per verificare che il bug riapparisse in assenza della patch. L’intera sequenza di diagnostica e riparazione è avvenuta all’interno di un singolo passaggio di elaborazione.

La piattaforma di ingegneria del software Factory ha implementato l’architettura per gestire attività di codifica prolungate all’interno di ambienti codebase complessi. I team tecnici hanno riferito che il sistema ha mantenuto la base logica e la coerenza di esecuzione tra i repository di codici aziendali, superando i livelli software della generazione precedente completando attività che in precedenza erano scadute o non erano state risolte.

Audit quantitativi di sicurezza e limiti di sfruttamento

I dati della scheda formale del sistema indicano che il sistema raggiunge queste capacità autonome senza una corrispondente inflazione dei rischi per la sicurezza. Gli audit comportamentali automatizzati progettati per verificare le tendenze ingannevoli e la cooperazione con richieste non autorizzate mostrano che il modello mostra un tasso complessivo inferiore di comportamenti non conformi rispetto al suo diretto predecessore, Sonetto 4.6.

L’architettura non possiede capacità avanzate di sicurezza informatica offensiva. Gli ingegneri antropici hanno omesso set di dati specializzati sulla sicurezza informatica dal protocollo di addestramento, limitando il sistema a compiti tecnici difensivi di routine. Nelle valutazioni sulla sicurezza pubblica condotte in collaborazione con Mozilla, i ricercatori hanno testato la capacità del modello di creare exploit funzionali per vulnerabilità note all’interno del core del browser Firefox 147.

Il modello non è riuscito a generare un singolo exploit funzionante in tutte le finestre di valutazione, registrando una percentuale di successo pari allo zero%. Ha raggiunto un tasso di successo parziale del 13,2%, che ha rappresentato un aumento minore rispetto a Sonetto 4.6, sebbene gli ingegneri attribuiscano questa variazione a guadagni generali nel ragionamento logico piuttosto che all’addestramento offensivo specifico del dominio. Per cautela, le versioni commerciali vengono fornite con classificatori di sicurezza in tempo reale predefiniti equivalenti a quelli utilizzati nel framework Premier Opus 4.8.

L’attrito normativo che circonda Fable 5 ha spinto a una partnership formale tra Anthropic, Amazon, Microsoft e Google per stabilire un quadro di settore oggettivo per valutare le violazioni della sicurezza dei modelli. Attualmente, i fornitori non dispongono di una metrica condivisa per classificare la gravità dei bypass del sistema, creando incertezza normativa quando i ricercatori identificano nuove vulnerabilità che provocano.

Il quadro di governance proposto valuta le ripartizioni della sicurezza in base a quattro criteri tecnici specifici:

Guadagno di capacità misura quanto l’exploit migliora le capacità dell’utente oltre le utilità software standard e ampiamente disponibili.
Ampi guadagni di capacità quantifica il numero di operazioni offensive distinte sbloccate dallo stesso exploit.
Facilità di armamento tiene traccia del volume degli sforzi di ingegneria umana e dei suggerimenti specializzati necessari per estrarre un output dannoso.
Rilevabilità determina l’accessibilità della tecnica di exploit all’interno degli ambienti pubblici di ricerca.

Sviluppatori e professionisti della sicurezza informatica utilizzeranno questa matrice per coordinare le risposte difensive. Per le violazioni di elevata gravità, come gli exploit che dimostrano una capacità immediata di interrompere i sistemi di contabilità finanziaria o le reti di trasmissione elettrica, i fornitori implementeranno immediatamente misure di mitigazione automatizzate. Questa iniziativa opera insieme al nuovo programma di ricerca sulle vulnerabilità HackerOne e a un team di monitoraggio aziendale dedicato che fornisce una supervisione 24 ore su 24 dei canali di intelligence sulle minacce.

Le strategie di implementazione dovranno adattarsi a questo rapporto più stretto tra costruttori di modelli e organismi di regolamentazione statali. Anthropic ha formalizzato accordi nell’ambito di recenti mandati esecutivi per garantire ai ricercatori federali un accesso anticipato alle architetture di frontiera prima del rilascio commerciale pubblico. Queste finestre di valutazione congiunta consentono agli analisti della sicurezza esterni di verificare le funzionalità del modello insieme ai team di ingegneri interni, garantendo l’allineamento normativo Prima il codice entra negli ambienti di produzione.

Vedi anche: HP accelera i flussi di lavoro aziendali con OpenAI Frontier

Banner per la serie di eventi AI & Big Data Expo.

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici tra cui Fiera sulla sicurezza informatica e sul cloud. Clic Qui per ulteriori informazioni

AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.

Fonte: www.artificialintelligence-news.com