ORPO: ottimizzazione delle preferenze senza la fase di regolazione fine supervisionata (SFT).

 | Intelligenza-Artificiale

Un metodo di allineamento molto più economico e performante quanto il DPO

Generato con DALL-E

Ora esistono molti metodi per allineare i modelli linguistici di grandi dimensioni (LLM) con le preferenze umane. L'apprendimento per rinforzo con feedback umano (RLHF) è stato uno dei primi e ci ha portato ChatGPT, ma RLHF è molto costoso. DPO, IPO e KTO sono notevolmente più economici di RLHF poiché non necessitano di un modello di ricompensa.

Sebbene DPO e IPO siano più economici, richiedono comunque il training di due modelli diversi. Un modello per la fase di fine tuning supervisionato (SFT), ovvero addestrare il modello a rispondere alle istruzioni e quindi il modello ad allinearsi con le preferenze umane utilizzando il modello SFT per l'inizializzazione e come riferimento.

ORPO è ancora un altro nuovo metodo per l'allineamento LLM, ma questo non necessita nemmeno del modello SFT. Con ORPO, il LLM impara congiuntamente a rispondere alle istruzioni e alle preferenze umane.

In questo articolo spiego ORPO e ne esamino le prestazioni. Mostro come utilizzarlo per trasformare Mistral 7B in un modello di chat utilizzando hardware consumer.

ORPO è presentato in questo articolo:

ORPO: ottimizzazione delle preferenze monolitiche senza modello di riferimento

Gli autori motivano molto bene l'ORPO dimostrando che la fase SFT non è l'ideale nel processo di allineamento. Sebbene la messa a punto del modello sui set di dati delle istruzioni adatti effettivamente il modello per rispondere alle istruzioni in un particolare dominio, aumenta anche la probabilità di generare risposte che gli esseri umani rifiuterebbero.

fonte

Questo è intuitivo. Le risposte scelte e rifiutate possono condividere molti punti in comune: stesso dominio, stesso formato, ecc. Da qui la maggiore probabilità di generare una risposta pertinente al compito ma errata.

Tecniche come DPO sono quindi necessarie per diminuire la probabilità delle risposte rifiutate aumentando al contempo la probabilità delle risposte scelte, ovvero aumentando il divario tra le curve nella figura sopra. Le tecniche di ottimizzazione delle preferenze sono…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *