Qwen 2.5-Max supera DeepSeek V3 in alcuni parametri di riferimento

 | Intelligenza-Artificiale

La risposta di Alibaba a DeepSeek è Qwen 2.5-Max, il modello su larga scala dell'ultimo mix di esperti (MOE) dell'azienda.

Qwen 2.5-Max vanta pretrattare oltre 20 trilioni di token e mettere a punto attraverso tecniche all'avanguardia come la messa a punto supervisionata (SFT) e l'apprendimento del rinforzo dal feedback umano (RLHF).

Con l'API ora disponibile attraverso Alibaba Cloud E il modello accessibile all'esplorazione tramite Qwen Chat, il gigante della tecnologia cinese sta invitando gli sviluppatori e i ricercatori a vedere in prima persona le sue scoperte.

Sovraperformare i coetanei

Quando si confrontano le prestazioni di Qwen 2.5-Max con alcuni dei modelli AI più importanti su una varietà di parametri di riferimento, i risultati sono promettenti.

Le valutazioni includevano metriche popolari come MMLU-Pro per la risoluzione dei problemi a livello universitario, LiveCodebench per le competenze di codifica, Livebench per le capacità generali e l'arena-hard per la valutazione dei modelli rispetto alle preferenze umane.

Secondo Alibaba, “Qwen 2.5-Max supera DeepSeek V3 in benchmark come Arena-Hard, Livebench, Livecodebench e GPQA-Diamond, dimostrando anche risultati competitivi in ​​altre valutazioni, tra cui MMLU-Pro”.

Confronto di riferimento AI di Alibaba Qwen 2.5-Max con altri modelli di intelligenza artificiale come Deepseek V3.
(Credito: Alibaba)

Il modello istruttivo-progettato per attività a valle come chat e codifica-compete direttamente con modelli leader come GPT-4O, Claude-3.5-Sonnet e DeepSeek V3. Tra questi, Qwen 2.5-Max è riuscito a sovraperformare i rivali in diverse aree chiave.

I confronti dei modelli di base hanno anche prodotto risultati promettenti. Mentre i modelli proprietari come GPT-4o e Claude-3.5-Sonnet sono rimasti fuori portata a causa delle restrizioni di accesso, Qwen 2.5-Max è stato valutato rispetto alle principali opzioni pubbliche come Deepseek V3, Llama-3.1-405b (il più grande modello denso a peso aperto ) e Qwen2.5-72b. Ancora una volta, il nuovo arrivato di Alibaba ha dimostrato prestazioni eccezionali su tutta la linea.

“I nostri modelli di base hanno dimostrato vantaggi significativi nella maggior parte dei parametri di riferimento”, ha dichiarato Alibaba, “e siamo ottimisti sul fatto che i progressi nelle tecniche di post-formazione elevranno la prossima versione di Qwen 2.5-Max a nuove altezze”.

Rendi accessibile Qwen 2.5-Max

Per rendere il modello più accessibile alla comunità globale, Alibaba ha integrato Qwen 2.5-Max con la sua piattaforma di chat Qwen, in cui gli utenti possono interagire direttamente con il modello in varie capacità, che esplorano le sue capacità di ricerca o testando la sua comprensione di query complesse.

Per gli sviluppatori, l'API QWEN 2.5-MAX è ora disponibile tramite Alibaba Cloud con il nome del modello “Qwen-Max-2025-01-25”. Gli utenti interessati possono iniziare registrando un account cloud Alibaba, attivando il servizio Model Studio e generando una chiave API.

L'API è persino compatibile con l'ecosistema di Openi, rendendo semplice l'integrazione per progetti e flussi di lavoro esistenti. Questa compatibilità abbassa la barriera per coloro che sono ansiosi di testare le loro applicazioni con le capacità del modello.

Alibaba ha fatto una forte dichiarazione di intenti con Qwen 2.5-Max. L'impegno costante dell'azienda nel ridimensionamento dei modelli di intelligenza artificiale non consiste solo nel migliorare i parametri di riferimento delle prestazioni, ma anche di migliorare le capacità di pensiero e ragionamento fondamentali di questi sistemi.

“Il ridimensionamento dei dati e delle dimensioni del modello non solo mette in mostra i progressi nell'intelligenza del modello, ma riflette anche il nostro incrollabile impegno per la ricerca pionieristica”, ha osservato Alibaba.

Guardando al futuro, il team mira a spingere i confini dell'apprendimento del rinforzo per favorire capacità di ragionamento ancora più avanzate. Questo, dicono, potrebbe consentire ai loro modelli di abbinare non solo ma superare l'intelligenza umana nella risoluzione di problemi intricati.

Le implicazioni per il settore potrebbero essere profonde. Man mano che i metodi di ridimensionamento migliorano e i modelli Qwen apportano nuove terre, è probabile che vediamo ulteriori increspature su campi guidati dall'IA a livello globale che abbiamo visto nelle ultime settimane.

(Foto di Maico Amorim)

Vedi anche: Chatgpt Gov mira a modernizzare le agenzie governative statunitensi

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber ​​Security & Cloud Expo.

Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.

Tag: AI, Alibaba, intelligenza artificiale, Modelli, Qwen, Qwen 2.5

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *