Claude 3.5 Sonnet di Anthropic batte GPT-4o nella maggior parte dei benchmark | Intelligenza-Artificiale

Anthropic è stato lanciato Claude 3.5 Sonettoil suo modello di medio livello che surclassa i concorrenti e supera addirittura l'attuale Claude 3 Opus di alto livello di Anthropic in varie valutazioni.

Claude 3.5 Sonnet è ora accessibile gratuitamente su Claude.ai e sull'app Claude iOS, con limiti tariffari più elevati per gli abbonati ai piani Claude Pro e Team. È disponibile anche tramite l'API Anthropic, Amazon Bedrock e Vertex AI di Google Cloud. Il modello ha un prezzo di 3 dollari per milione di token di input e 15 dollari per milione di token di output, con una finestra di contesto di token da 200.000.

Anthropic afferma che Claude 3.5 Sonnet “stabilisce nuovi parametri di riferimento del settore per il ragionamento a livello di laurea (GPQA), la conoscenza a livello universitario (MMLU) e la competenza di codifica (HumanEval)”. Il modello dimostra capacità avanzate nel comprendere sfumature, umorismo e istruzioni complesse, eccellendo nel produrre contenuti di alta qualità con un tono naturale.

Operando al doppio della velocità di Claude 3 Opus, Claude 3.5 Sonnet è adatto per attività complesse come l'assistenza clienti sensibile al contesto e l'orchestrazione del flusso di lavoro in più fasi. In una valutazione interna della codifica ad agenti, ha risolto il 64% dei problemi, superando significativamente Claude 3 Opus con il 38%.

Il modello mostra anche capacità visive migliorate, superando Claude 3 Opus nei parametri di riferimento della visione standard. Questo progresso è particolarmente evidente nelle attività che richiedono il ragionamento visivo, come l’interpretazione di diagrammi e grafici. Claude 3.5 Sonnet può trascrivere accuratamente testo da immagini imperfette, una caratteristica preziosa per settori come vendita al dettaglio, logistica e servizi finanziari.

Oltre al lancio del modello, Anthropic ha introdotto Artifacts su Claude.ai, una nuova funzionalità che migliora l'interazione dell'utente con l'intelligenza artificiale. Questa funzionalità consente agli utenti di visualizzare, modificare e sfruttare i contenuti generati da Claude in tempo reale, creando un ambiente di lavoro più collaborativo.

Nonostante il suo significativo salto di qualità in termini di intelligenza, Claude 3.5 Sonnet mantiene l'impegno di Anthropic per la sicurezza e la privacy. L'azienda afferma: “I nostri modelli sono sottoposti a test rigorosi e sono stati addestrati per ridurre l'uso improprio”.

Esperti esterni, compresi quelli del Regno Unito Istituto per la sicurezza AI (UK AISI) ed esperti di sicurezza infantile presso spinasono stati coinvolti nel testare e perfezionare i meccanismi di sicurezza del modello.

Anthropic sottolinea il suo impegno nei confronti della privacy degli utenti, affermando: “Non addestriamo i nostri modelli generativi sui dati inviati dagli utenti a meno che un utente non ci dia il permesso esplicito di farlo. Fino ad oggi non abbiamo utilizzato alcun dato inviato dai clienti o dagli utenti per addestrare i nostri modelli generativi”.

Guardando al futuro, Anthropic prevede di rilasciare Claude 3.5 Haiku e Claude 3.5 Opus entro la fine dell'anno per completare la famiglia di modelli Claude 3.5. L'azienda sta inoltre sviluppando nuove modalità e funzionalità per supportare più casi d'uso aziendali, comprese integrazioni con applicazioni aziendali e una funzionalità di memoria per esperienze utente più personalizzate.

(Credito immagine: Antropico)

Guarda anche: La nuova startup del co-fondatore di OpenAI Ilya Sutskever mira a una “superintelligenza sicura”