LG Exaone Deep è un appassionato di matematica, scienza e codifica | Intelligenza-Artificiale

LG AI Research ha svelato Exaone Deep, un modello di ragionamento che eccelle nella risoluzione complessa di problemi attraverso la matematica, la scienza e la codifica.

La società ha messo in evidenza la sfida globale nella creazione di modelli di ragionamento avanzato, rilevando che attualmente solo una manciata di organizzazioni con modelli di base sta perseguendo attivamente questa area complessa. ExaOne Deep mira a competere direttamente con questi modelli leader, mostrando un livello competitivo di capacità di ragionamento.

LG AI Research ha concentrato i suoi sforzi sul miglioramento drastico delle capacità di ragionamento di Exaone Deep nei settori core. Il modello dimostra anche una forte capacità di comprendere e applicare le conoscenze in una gamma più ampia di soggetti.

I benchmark delle prestazioni pubblicati da LG AI Research sono impressionanti:

Matematica: Il modello Exaone Deep 32B ha sovraperformato un modello concorrente, nonostante fosse solo il 5% delle sue dimensioni, in un punto di riferimento matematico impegnativo. Inoltre, le versioni 7,8b e 2,4b hanno raggiunto il primo posto in tutti i principali benchmark matematici per le rispettive dimensioni del modello.
Scienza e codifica: In queste aree, i modelli ExaOne Deep (7.8b e 2,4b) hanno ottenuto il primo posto in tutti i principali parametri di riferimento.
MMLU (enorme comprensione della lingua multitasking): Il modello 32B ha ottenuto un punteggio di 83,0 sul benchmark MMLU, che la ricerca AI di AI è la migliore performance tra i modelli coreani nazionali.

Le capacità del modello Exaone Deep 32B hanno già ottenuto il riconoscimento internazionale.

Poco dopo la sua uscita, è stato incluso nell'elenco “notevoli modelli AI” dall'organizzazione di ricerca senza scopo di lucro con sede negli Stati Uniti Epoca ai. Questo elenco colloca Exaone in profondità insieme al suo predecessore, ExaOne 3.5, rendendo LG l'unica entità coreana con i modelli presenti in questa prestigiosa lista negli ultimi due anni.

Abilità matematica

ExaOne Deep ha dimostrato eccezionali capacità di ragionamento matematico tra le sue varie dimensioni del modello (32b, 7,8b e 2,4b). Nelle valutazioni basate sul curriculum di matematica dell'anno accademico del 2025, tutti e tre i modelli hanno sovraperformato i modelli di ragionamento globale di dimensioni comparabili.

Il modello 32B ha ottenuto un punteggio di 94,5 in un test generale di competenza matematica e 90,0 nell'American Invitational Mathematics Examination (AIME) 2024, un esame di qualificazione per le Olimpiade matematiche statunitensi.

Nell'AIME 2025, il modello 32B corrispondeva alle prestazioni di DeepSeek-R1, un modello 671B significativamente più grande. Questo risultato mette in mostra l'apprendimento efficiente di Exaone Deep e le forti capacità di ragionamento logico, in particolare quando si affrontano problemi matematici impegnativi.

I modelli più piccoli da 7,8b e 2,4b hanno anche ottenuto le classifiche migliori nei principali parametri di riferimento per modelli leggeri e sul dispositivo, rispettivamente. Il modello 7.8b ha segnato 94,8 sul benchmark Math-500 e 59,6 su AIME 2025, mentre il modello 2.4b ha ottenuto punteggi di 92,3 e 47,9 nelle stesse valutazioni.

Eccellenza scientifica e codifica

ExaOne Deep ha anche mostrato notevoli capacità nel ragionamento scientifico professionale e nella codifica del software.

Il modello 32B ha segnato 66.1 sul test Diamond GPQA, che valuta le capacità di risoluzione dei problemi nella fisica, chimica e biologia a livello di dottorato. Nella valutazione LiveCodebench, che misura la competenza di codifica, il modello ha ottenuto un punteggio di 59,5, indicando il suo potenziale per applicazioni di alto livello in questi domini esperti.

I modelli da 7,8b e 2,4b hanno continuato questa tendenza di forti prestazioni, essendo entrambi al primo posto nei benchmark Diamond GPQA e LiveCodebench all'interno delle rispettive categorie di dimensioni. Questo risultato si basa sul successo del modello ExaOne 3.5 2.4b, che in precedenza ha superato il lettore LLM di abbraccio nella divisione Edge.

Conoscenza generale migliorata

Oltre alle sue capacità di ragionamento specializzate, ExaOne Deep ha anche dimostrato prestazioni migliorate nella comprensione generale della conoscenza.

Il modello 32B ha ottenuto un punteggio impressionante di 83,0 sul benchmark MMLU, posizionandolo come modello interno ad alte prestazioni in questa valutazione completa. Ciò indica che i miglioramenti del ragionamento di ExaOne Deep vanno oltre i settori specifici e contribuiscono a una più ampia comprensione di vari argomenti.

LG AI Research ritiene che i progressi del ragionamento di Exaone Deep rappresenti un salto verso un futuro in cui l'IA può affrontare problemi sempre più complessi e contribuire ad arricchire e semplificare la vita umana attraverso ricerche continue e innovazioni.

Vedi anche: Baidu Undercuts Rival AI Models with Ernie 4.5 ed Ernie X1

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.

Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.

Fonte: www.artificialintelligence-news.com