Per diventare modelli di chat, i modelli linguistici di grandi dimensioni (LLM) pre-addestrati vengono ottimizzati su grandi set di dati di istruzioni/domande abbinati alle risposte previste. Sebbene questa semplice messa a punto produca modelli di chat convincenti, le loro risposte potrebbero comunque essere incoerenti, parziali, non etiche e non sicure dal punto di vista umano. Questo è il motivo per cui di solito eseguiamo una fase di formazione aggiuntiva per allineare meglio il LLM con gli esseri umani.
Questo allineamento può essere effettuato utilizzando l’apprendimento per rinforzo con feedback umano (RLHF). Come dimostrato da OpenAI e dal successo di ChatGPT, RLHF può produrre modelli di chat all’avanguardia. Tuttavia, RLHF è costoso da gestire. Richiede grandi set di dati annotati da esseri umani e l’addestramento di diversi modelli ausiliari (modelli di riferimento e di ricompensa).
Come alternativa più semplice ed economica a RLHF, ottimizzazione delle preferenze dirette (DPO) è stato recentemente applicato con successo per allineare i LLM, come Hugging Face Zefiro e Intel Chat neurale.
In questo articolo, basato su un lavoro di Google DeepMind, vedremo che, sebbene RLHF e DPO si comportino bene nell’allineamento degli LLM, sono tutt’altro che ottimali considerati i set di dati utilizzati per la formazione. DeepMind dimostra anche perché il DPO è incline al sovradattamento. Spiegherò, in un inglese semplice, come l’alternativa proposta da DeepMind, l’obiettivo di ottimizzazione della politica di identità (IPO), sia più semplice e meglio progettata per apprendere dai dati di addestramento rispetto a RLHF e DPO.
Nelle sezioni seguenti, mostro come utilizzare IPO seguendo una ricetta di training simile a quella utilizzata da Hugging Face per addestrare i modelli Zephyr.
Ho anche implementato un notebook che mostra la formazione IPO per Mistral 7B. Potete trovare qui:
Il documento di DeepMind che descrive l’IPO è su arXiv:
Un paradigma teorico generale per comprendere l’apprendimento dalle preferenze umane
RLHF e DPO vengono addestrati su set di dati simili: prompt abbinati ad almeno due possibili risposte valutate da esseri umani (o LLM). Le risposte sono accoppiate in modo che, in un…
Fonte: towardsdatascience.com