
Il team Qwen di Alibaba ha svelato QWQ-32B, un modello di AI di parametro da 32 miliardi che dimostra le prestazioni che rivaleggiano con molto più grande DeepSeek-R1. Questa svolta evidenzia il potenziale del ridimensionamento dell'apprendimento del rinforzo (RL) su modelli di fondazione robusti.
Il team Qwen si è integrato con successo capacità degli agenti Nel modello di ragionamento, consentendogli di pensare in modo critico, utilizzare strumenti e adattarsi al ragionamento basato sul feedback ambientale.
“Il ridimensionamento di RL ha il potenziale per migliorare le prestazioni del modello oltre i metodi convenzionali di pretrattamento e post-formazione”, ha affermato il team. “Recenti studi hanno dimostrato che RL può migliorare significativamente le capacità di ragionamento dei modelli.”
QWQ-32B raggiunge le prestazioni paragonabili a DeepSeek-R1, che vanta 671 miliardi di parametri (con 37 miliardi di attivati), una testimonianza dell'efficacia di RL quando applicata a solidi modelli di fondazione pretratti su ampie conoscenze mondiali. Questo notevole risultato sottolinea il potenziale di RL per colmare il divario tra dimensioni del modello e prestazioni.
Il modello è stato valutato in una serie di parametri di riferimento, tra cui Aime24, Livecodebench, Livebench, Ifeval e BFCL, progettati per valutare il ragionamento matematico, la competenza di codifica e le capacità generali di risoluzione dei problemi.
I risultati evidenziano le prestazioni di QWQ-32B rispetto ad altri modelli principali, tra cui DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Lllama-70B, O1-Mini e l'originale DeepSeek-R1.
Risultati di riferimento:
- Come24: QWQ-32B ha raggiunto 79,5, leggermente dietro 79,8 di DeepSeek-R1-6718, ma significativamente davanti ai 63,6 di Openal-O1-Mini e ai modelli distillati.
- Livecodebench: QWQ-32B ha segnato 63,4, sempre strettamente abbinato dal 65,9 di DeepSeek-R1-6718, e superando i modelli distillati e il 53,8 aperto Openal-O1-Mini.
- Live Ikench: QWQ-32B ha raggiunto 73.1, con DeepSeek-R1-6718 che ha segnato 71.6, e ha superato i modelli distillati e il 57,5 di Openal-O1-Mini.
- IFEVAL: QWQ-32B ha segnato 83,9, molto vicino all'83.3 di DeepSeek-R1-6718, e guidando i modelli distillati e il 59,1 aperto Openal-O1-Mini.
- BFCL: QWQ-32B ha raggiunto 66,4, con DeepSeek-R1-6718 che ha segnato 62,8, dimostrando un vantaggio sui modelli distillati e 49.3 aperti-O1-Mini.
L'approccio del team di Qwen ha comportato un checkpoint a freddo e un processo RL a più stadi guidato da premi basati sui risultati. La fase iniziale si è concentrata sul ridimensionamento di RL per le attività di matematica e codifica, utilizzando verificatori di accuratezza e server di esecuzione del codice. La seconda fase si è estesa alle capacità generali, incorporando premi da modelli di ricompensa generali e verificatori basati sulle regole.
“Scopriamo che questa fase dell'allenamento RL con una piccola quantità di passaggi può aumentare le prestazioni di altre capacità generali, come le istruzioni, l'allineamento con le preferenze umane e le prestazioni degli agenti, senza un calo significativo delle prestazioni in matematica e codifica”, ha spiegato il team.
QWQ-32B è aperto e disponibile su Abbracciare la faccia E ModelScope con la licenza Apache 2.0 ed è anche accessibile tramite Qwen Chat. Il team Qwen considera questo come un passo iniziale nel ridimensionamento di RL per migliorare le capacità di ragionamento e mira a esplorare ulteriormente l'integrazione degli agenti con RL per il ragionamento a lungo orizzonte.
“Mentre lavoriamo per sviluppare la prossima generazione di Qwen, siamo fiduciosi che combinare modelli di fondazione più forti con RL alimentati da risorse computazionali in scala ci spingerà più vicino al raggiungimento dell'intelligenza generale artificiale (AGI)”, ha affermato il team.
Vedi anche: Deepgram Nova-3 Medical: il modello vocale AI riduce gli errori di trascrizione sanitaria

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.
Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.
Fonte: www.artificialintelligence-news.com