I modelli di ragionamento DeepSeek-R1 competono con OpenAI in termini di prestazioni

 | Intelligenza-Artificiale

DeepSeek ha presentato i suoi modelli DeepSeek-R1 e DeepSeek-R1-Zero di prima generazione progettati per affrontare compiti di ragionamento complessi.

DeepSeek-R1-Zero viene addestrato esclusivamente attraverso l'apprendimento di rinforzo su larga scala (RL) senza fare affidamento sulla messa a punto supervisionata (SFT) come passaggio preliminare. Secondo DeepSeek, questo approccio ha portato all’emergere naturale di “numerosi comportamenti di ragionamento potenti e interessanti”, tra cui l’autoverifica, la riflessione e la generazione di estese catene di pensiero (CoT).

“In particolare, (DeepSeek-R1-Zero) è la prima ricerca aperta a convalidare che le capacità di ragionamento degli LLM possono essere incentivate esclusivamente attraverso RL, senza la necessità di SFT”, hanno spiegato i ricercatori di DeepSeek. Questa pietra miliare non solo sottolinea le basi innovative del modello, ma apre anche la strada a progressi incentrati sull’RL nel ragionamento dell’intelligenza artificiale.

Tuttavia, le capacità di DeepSeek-R1-Zero presentano alcune limitazioni. Le sfide principali includono “ripetizione infinita, scarsa leggibilità e mescolanza linguistica”, che potrebbero rappresentare ostacoli significativi nelle applicazioni del mondo reale. Per risolvere queste carenze, DeepSeek ha sviluppato il suo modello di punta: DeepSeek-R1.

Presentazione di DeepSeek-R1

DeepSeek-R1 si basa sul suo predecessore incorporando i dati di avvio a freddo prima dell'addestramento RL. Questo ulteriore passaggio di pre-addestramento migliora le capacità di ragionamento del modello e risolve molte delle limitazioni indicate in DeepSeek-R1-Zero.

In particolare, DeepSeek-R1 raggiunge prestazioni paragonabili al tanto lodato sistema o1 di OpenAI in compiti di matematica, codifica e ragionamento generale, consolidando la sua posizione come principale concorrente.

DeepSeek ha scelto di rendere open source sia DeepSeek-R1-Zero che DeepSeek-R1 insieme a sei modelli distillati più piccoli. Tra questi, DeepSeek-R1-Distill-Qwen-32B ha dimostrato risultati eccezionali, superando addirittura o1-mini di OpenAI su più benchmark.

  • MATH-500 (Pass@1): DeepSeek-R1 ha raggiunto il 97,3%, eclissando OpenAI (96,4%) e altri principali concorrenti.
  • LiveCodeBench (Pass@1-COT): la versione distillata DeepSeek-R1-Distill-Qwen-32B ha ottenuto il 57,2%, una prestazione eccezionale tra i modelli più piccoli.
  • AIME 2024 (Pass@1): DeepSeek-R1 ha raggiunto il 79,8%, stabilendo uno standard impressionante nella risoluzione dei problemi matematici.

Una pipeline a beneficio dell’industria in generale

DeepSeek ha condiviso approfondimenti sulla sua rigorosa pipeline per lo sviluppo di modelli di ragionamento, che integra una combinazione di perfezionamento supervisionato e apprendimento per rinforzo.

Secondo l’azienda, il processo prevede due fasi SFT per stabilire le capacità fondamentali di ragionamento e non ragionamento, nonché due fasi RL su misura per scoprire modelli di ragionamento avanzati e allineare queste capacità con le preferenze umane.

“Riteniamo che il gasdotto porterà benefici al settore creando modelli migliori”, ha osservato DeepSeek, alludendo al potenziale della loro metodologia di ispirare futuri progressi nel settore dell’intelligenza artificiale.

Un risultato straordinario del loro approccio incentrato sull'RL è la capacità di DeepSeek-R1-Zero di eseguire schemi di ragionamento complessi senza previa istruzione umana: una novità assoluta per la comunità di ricerca sull'intelligenza artificiale open source.

Importanza della distillazione

I ricercatori di DeepSeek hanno anche evidenziato l’importanza della distillazione, il processo di trasferimento delle capacità di ragionamento da modelli più grandi a modelli più piccoli ed efficienti, una strategia che ha sbloccato miglioramenti in termini di prestazioni anche per configurazioni più piccole.

Le iterazioni distillate più piccole di DeepSeek-R1, come le versioni 1.5B, 7B e 14B, sono state in grado di reggere il confronto in applicazioni di nicchia. I modelli distillati possono superare i risultati ottenuti tramite la formazione RL su modelli di dimensioni comparabili.

Per i ricercatori, questi modelli distillati sono disponibili in configurazioni che vanno da 1,5 miliardi a 70 miliardi di parametri, supportando le architetture Qwen2.5 e Llama3. Questa flessibilità consente un utilizzo versatile in un'ampia gamma di attività, dalla codifica alla comprensione del linguaggio naturale.

DeepSeek ha adottato la licenza MIT per il suo repository e i suoi pesi, estendendo le autorizzazioni per l'uso commerciale e le modifiche downstream. Sono consentiti lavori derivati, come l'utilizzo di DeepSeek-R1 per addestrare altri modelli linguistici di grandi dimensioni (LLM). Tuttavia, gli utenti di specifici modelli distillati dovrebbero garantire la conformità con le licenze dei modelli base originali, come le licenze Apache 2.0 e Llama3.

(Foto di Prateek Katyal)

Vedi anche: Microsoft avanza nella scoperta dei materiali con MatterGen

Vuoi saperne di più sull'intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell'intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L'evento completo è collocato in contemporanea con altri eventi importanti, tra cui Conferenza sull'automazione intelligente, BlockX, Settimana della trasformazione digitaleE Fiera sulla sicurezza informatica e sul cloud.

Esplora altri prossimi eventi e webinar sulla tecnologia aziendale forniti da TechForge Qui.

tag: ai, intelligenza artificiale, segno di riferimento, confronto, ricerca profonda, deepseek-r1, grandi modelli linguistici, llm, modelli, ragionamento, modelli di ragionamento, apprendimento per rinforzo, test

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *