I modelli di ricompensa AI di DeepSeek: ciò che gli umani vogliono veramente

 | Intelligenza-Artificiale

La startup cinese AI Deepseek ha risolto un problema che ha frustrato i ricercatori di intelligenza artificiale per diversi anni. La sua svolta nei modelli di ricompensa di intelligenza artificiale potrebbe migliorare drasticamente come ragionare i sistemi di intelligenza artificiale e rispondere alle domande.

In collaborazione con i ricercatori dell'Università di Tsinghua, DeepSeek ha creato una tecnica dettagliata in un documento di ricerca, intitolato “Il ridimensionamento del tempo di inferenza per la modellazione della ricompensa generalista. ” Descrive come un nuovo approccio supera i metodi esistenti e come il team “ha ottenuto prestazioni competitive” rispetto ai forti modelli di ricompensa pubblica.

L'innovazione si concentra sul miglioramento del modo in cui i sistemi di intelligenza artificiale apprendono dalle preferenze umane, un aspetto importante della creazione di intelligenza artificiale più utile e allineata.

Cosa sono i modelli di ricompensa di intelligenza artificiale e perché importa?

I modelli di ricompensa AI sono componenti importanti nell'apprendimento del rinforzo per i modelli linguistici di grandi dimensioni. Forniscono segnali di feedback che aiutano a guidare il comportamento di un'intelligenza artificiale verso i risultati preferiti. In termini più semplici, i modelli di ricompensa sono come insegnanti digitali che aiutano l'IA a capire ciò che gli umani vogliono dalle loro risposte.

“La modellazione della ricompensa è un processo che guida un LLM verso le preferenze umane”, afferma la carta Deepseek. La modellazione della ricompensa diventa importante poiché i sistemi di intelligenza artificiale diventano più sofisticati e vengono distribuiti in scenari oltre a semplici compiti di risposta alle domande.

L'innovazione di DeepSeek affronta la sfida di ottenere segnali di ricompensa accurati per LLM in diversi settori. Mentre gli attuali modelli di ricompensa funzionano bene per domande verificabili o regole artificiali, lottano in settori generali in cui i criteri sono più diversi e complessi.

Il doppio approccio: quanto funziona il metodo di DeepSeek

L'approccio di Deepseek combina due metodi:

  1. Modellazione della ricompensa generativa (GRM): Questo approccio consente la flessibilità in diversi tipi di input e consente il ridimensionamento durante il tempo di inferenza. A differenza dei precedenti approcci scalari o semi-scalari, GRM fornisce una rappresentazione più ricca di premi attraverso il linguaggio.
  2. Tuning della critica auto-stampata (SPCT): Un metodo di apprendimento che promuove comportamenti scalabili di generazione di ricompensa in GRMS attraverso l'apprendimento del rinforzo online, uno che genera principi in modo adattivo.

Uno degli autori del documento dell'Università di Tsinghua e Deepseek-Ai, Zijun Liu, ha spiegato che la combinazione di metodi consente di generare “Principi in base alla query e alle risposte di input, allineando in modo adattivo il processo di generazione della ricompensa”.

L'approccio è particolarmente prezioso per il suo potenziale per il “ridimensionamento del tempo di inferenza”, migliorando le prestazioni aumentando le risorse computazionali durante l'inferenza piuttosto che solo durante la formazione.

I ricercatori hanno scoperto che i loro metodi potrebbero ottenere risultati migliori con un aumento del campionamento, consentendo ai modelli di generare migliori premi con più calcolo.

Implicazioni per l'industria dell'intelligenza artificiale

L'innovazione di Deepseek arriva in un momento importante nello sviluppo dell'IA. Il documento afferma che “Rinformance Learning (RL) è stato ampiamente adottato nel post-formazione per i modelli di grandi dimensioni (…) su vasta scala”, portando a “notevoli miglioramenti nell'allineamento del valore umano, nel ragionamento a lungo termine e nell'adattamento dell'ambiente per LLM”.

Il nuovo approccio alla modellazione della ricompensa potrebbe avere diverse implicazioni:

  1. Feedback di intelligenza artificiale più accurato: Creando modelli di ricompensa migliori, i sistemi di intelligenza artificiale possono ricevere feedback più precisi sui loro risultati, portando a migliori risposte nel tempo.
  2. Aumento dell'adattabilità: La capacità di ridimensionare le prestazioni del modello durante l'inferenza significa che i sistemi di intelligenza artificiale possono adattarsi a diversi vincoli e requisiti computazionali.
  3. Applicazione più ampia: I sistemi possono funzionare meglio in una gamma più ampia di compiti migliorando la modellazione della ricompensa per i domini generali.
  4. Uso delle risorse più efficiente: La ricerca mostra che il ridimensionamento del tempo di inferenza con il metodo di DeepSeek potrebbe sovraperformare il ridimensionamento delle dimensioni del modello nel tempo di allenamento, consentendo potenzialmente a modelli più piccoli di eseguire comparabilmente a quelli più grandi con risorse di tempo di inferenza appropriate.

La crescente influenza di DeepSeek

L'ultimo sviluppo si aggiunge al profilo crescente di Deepseek nell'intelligenza artificiale globale. Fondata nel 2023 dall'imprenditore Liang Wenfeng, la società con sede a Hangzhou ha fatto onde con i suoi modelli di ragionamento V3 e R1.

L'azienda ha aggiornato il suo modello V3 (DeepSeek-V3-0324) di recente, che la società ha affermato che ha offerto “capacità di ragionamento migliorate, sviluppo web front-end ottimizzato e competenza di scrittura cinese aggiornata”. DeepSeek si è impegnato AI open sourceRilascio di cinque repository di codice a febbraio che consentono agli sviluppatori di rivedere e contribuire allo sviluppo.

Mentre la speculazione continua sul potenziale rilascio di DeepSeek-R2 (il successore di R1)- Reuters ha speculato sulle possibili date di rilascio: DeepSeek non ha commentato nei suoi canali ufficiali.

Qual è il futuro dei modelli di ricompensa di intelligenza artificiale?

Secondo i ricercatori, DeepSeek intende rendere aperti i modelli GRM, sebbene non sia stata fornita alcuna linea temporale specifica. Open-Sourcing accelererà i progressi sul campo consentendo una più ampia sperimentazione con modelli di ricompensa.

Mentre l'apprendimento del rinforzo continua a svolgere un ruolo importante nello sviluppo dell'IA, i progressi nella modellazione della ricompensa come quelli nel lavoro di DeepSeek e dell'Università di Tsinghua avranno probabilmente un impatto sulle capacità e sul comportamento dei sistemi di intelligenza artificiale.

Il lavoro sui modelli di ricompensa AI dimostra che le innovazioni su come e quando i modelli apprendono possono essere altrettanto importanti per aumentare le loro dimensioni. Concentrandosi sulla qualità del feedback e sulla scalabilità, DeepSeek affronta una delle sfide fondamentali per la creazione di AI che comprenda e si allinea meglio con le preferenze umane.

Vedi anche: DeepSeek Disruption: l'innovazione AI cinese restringe la tecnologia globale Divide

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber ​​Security & Cloud Expo.

Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *