Deep Cogito Open LLMS Usa IDA per sovraperformare i modelli delle stesse dimensioni

 | Intelligenza-Artificiale

Deep Cogito ha rilasciato diversi modelli di grandi dimensioni (LLMS) che superano i concorrenti e affermano di rappresentare un passo verso il raggiungimento della sovrintendente generale.

La società con sede a San Francisco, che afferma che la sua missione è “Building General Sopintelligence”, ha lanciato le versioni di anteprima di LLM in dimensioni di parametri 3B, 8B, 14B, 32B e 70B. Deep Cogito afferma che “ogni modello supera i migliori modelli aperti disponibili delle stesse dimensioni, tra cui controparti di Llama, DeepSeek e Qwen, attraverso la maggior parte dei parametri standard”.

Incredibilmente, il modello 70B di Deep Cogito supera persino le prestazioni del modello MOE (Llama 4 109B (MOE) recentemente pubblicato.

Distillazione e amplificazione iterate (IDA)

Al centro di questa versione è una nuova metodologia di formazione chiamata distillazione e amplificazione iterate (IDA).

Deep Cogito descrive l'IDA come “una strategia di allineamento scalabile ed efficiente per la sovrintendenza generale usando il miglioramento di sé iterativo”. Questa tecnica mira a superare i limiti intrinseci degli attuali paradigmi di addestramento LLM, in cui l'intelligenza del modello è spesso limitata dalle capacità dei più grandi modelli di “sorvegliante” o dei curatori umani.

Il processo IDA prevede ripetutamente due passaggi chiave:

  • Amplificazione: Utilizzando un maggiore calcolo per consentire al modello di derivare soluzioni o capacità migliori, simile alle tecniche di ragionamento avanzate.
  • Distillazione: Internalizzare queste capacità amplificate nei parametri del modello.

Deep Cogito afferma che ciò crea un “ciclo di feedback positivo” in cui l'intelligenza del modello si ridimensiona più direttamente con le risorse computazionali e l'efficienza del processo IDA, piuttosto che essere strettamente delimitati dall'intelligenza del sorvegliante.

“Quando studiamo sistemi di sovrintenza”, osserva la ricerca, facendo riferimento a successi come Alphago“Troviamo due ingredienti chiave abilitati a questa svolta: ragionamento avanzato e auto-miglioramento iterativo”. IDA è presentato come un modo per integrare entrambi nella formazione LLM.

Deep Cogito afferma che IDA è efficiente, affermando che i nuovi modelli sono stati sviluppati da un piccolo team in circa 75 giorni. Evidenziano anche la potenziale scalabilità di IDA rispetto a metodi come l'apprendimento del rinforzo dal feedback umano (RLHF) o una distillazione standard da modelli più grandi.

Come prova, l'azienda indica il loro modello 70B che sovraperformano Llama 3.3 70B (distillato da un modello 405B) e Llama 4 Scout 109B (distillato da un modello di parametro 2T).

Capacità e prestazioni dei modelli di cogito profondi

I modelli Cogito appena rilasciati – basati sui checkpoint Llama e Qwen – sono ottimizzati per i casi di codifica, chiamate di funzione e utilizzo agenti.

Una caratteristica chiave è la loro doppia funzionalità: “Ogni modello può rispondere direttamente (LLM standard) o auto-riflettere prima di rispondere (come i modelli di ragionamento)”, simile alle capacità viste in modelli come Claude 3.5. Tuttavia, Deep Cogito osserva che “non hanno ottimizzato per le catene di ragionamento molto lunghe”, citando la preferenza dell'utente per risposte più veloci e l'efficienza della distillazione di catene più brevi.

Vengono forniti estesi risultati di benchmark, confrontando i modelli Cogito con modelli aperti all'avanguardia equivalenti a dimensioni sia in modalità diretta (standard) che di ragionamento.

Attraverso vari benchmark (MMLU, MMLU-PRO, ARC, GSM8K, matematica, ecc.) E dimensioni del modello (3b, 8b, 14b, 32b, 70b,) i modelli Cogito generalmente mostrano guadagni di performance significativi su controparti come Llama 3.1/3.2/3.3 e QWen 2.5, in particolare in modalità ragionamento.

Ad esempio, il modello Cogito 70B raggiunge il 91,73% su MMLU in modalità standard (+6,40% vs Llama 3.3 70b) e il 91,00% in modalità di pensiero (+4,40% vs DeepSeek R1 Distill 70b). I punteggi Livebench mostrano anche miglioramenti.

Ecco i parametri di riferimento di modelli 14B per un confronto di medie dimensioni:

Confronto di riferimento di modelli in linguaggio di grandi dimensioni di 14b da cogito profondo rispetto ad Alibaba Qwen e DeepSeek R1

Pur riconoscendo che i parametri di riferimento non catturano completamente l'utilità del mondo reale, Deep Cogito esprime fiducia nelle prestazioni pratiche.

Questa versione è etichettata con l'anteprima, con un profondo cogito che afferma di essere “ancora nelle prime fasi di questa curva di ridimensionamento”. Prevedono di rilasciare punti di controllo migliorati per le dimensioni attuali e introdurre modelli MOE più grandi (109B, 400b, 671b) “nelle prossime settimane / mesi”. Tutti i modelli futuri saranno anche open-source.

(Foto di Pietro Mattia)

Vedi anche: Alibaba Cloud prende di mira la crescita globale dell'IA con nuovi modelli e strumenti

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber ​​Security & Cloud Expo.

Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *