Questa è l'idea principale dietro Self-Intsruct!

Passaggio 4: messa a punto del LM per seguire le istruzioni

Dopo aver completato tutti i passaggi precedenti, possiamo prendere un LM pre-addestrato e ottimizzarlo con le istruzioni sul set di dati generato per ottenere metriche migliori.

All'inizio dell'articolo, ho trattato alcune sfide che devono affrontare i LLM “orientati alle istruzioni”; vediamo come Self-Instruct consente di superarli.

Quantità

Con l'aiuto di sole 175 attività iniziali scritte da persone, sono state generate 52.000 istruzioni e 82.000 istanze:

Fonte: Autoistruzione: allineamento dei modelli linguistici con istruzioni autogenerate

Diversità

Per indagare quanto sia vario il set di dati generato, gli autori di Self-Instruct hanno utilizzato Berkley Neural Parser per analizzare le istruzioni e quindi estrarre il verbo più vicino alla radice e al suo primo oggetto sostantivo diretto. 26.000 istruzioni su 52.000 hanno un formato verbo-sostantivo, ma le altre 26.000 istruzioni hanno una struttura più complessa (ad esempio, “Classifica se questo tweet contiene contenuto politico o meno.”) o sono strutturate come domande (ad esempio, “Quale di queste affermazioni?” sono vere?”).

I primi 20 verbi radice più comuni (cerchio interno) e i loro primi 4 oggetti sostantivi diretti (cerchio esterno) nelle istruzioni generate | Fonte: Autoistruzione: allineamento dei modelli linguistici con istruzioni autogenerate

Qualità

Per dimostrare che Self-Instruct può generare compiti di alta qualità, sono state selezionate casualmente 200 istruzioni generate e campionata 1 istanza per istruzione, quindi l'autore del framework le ha valutate, ottenendo i seguenti risultati:

Fonte: Autoistruzione: allineamento dei modelli linguistici con istruzioni autogenerate

Come possiamo vedere, il 92% di tutte le attività descrive un'attività valida e il 54% ha tutti campi validi (dato che abbiamo generato 52.000 attività, almeno 26.000 rappresenteranno dati di alta qualità, il che è fantastico!)

Costi

Il framework Self-Instruct introduce anche notevoli vantaggi in termini di costi. Le fasi iniziali della generazione delle attività (passaggi 1-3) ammontano a soli 600 dollari, mentre l'ultimo passaggio di messa a punto utilizzando il modello GPT-3 comporta un costo di 338 dollari. È fondamentale tenerlo presente quando guardiamo i risultati!

Come Self-Instruct può migliorare la metrica ROUGE-L sul SuperNI (Istruzioni soprannaturali) insieme di dati? Per questo, possiamo confrontare i risultati di 1) LM pre-addestrati standard senza alcuna regolazione fine delle istruzioni (LM Vanilla), 2) modelli ottimizzati per le istruzioni (ottimizzazione per le istruzioni senza SuperNI) e 3) Modelli ottimizzati per le istruzioni addestrati su SuperNI (ottimizzazione per le istruzioni con SuperNI):

Risultati della valutazione attivati invisibile compiti da SuperNI | Fonte: Autoistruzione: allineamento dei modelli linguistici con istruzioni autogenerate

Come possiamo vedere, l'utilizzo di Self-Instruct dimostra un miglioramento assoluto del 33% rispetto al modello originale sul set di dati (1); allo stesso tempo, mostra che l'utilizzo del framework può anche migliorare leggermente i parametri dopo aver messo a punto il set di dati SuperNI (3).

Inoltre, se creiamo un nuovo set di dati (= invisibile) di 252 istruzioni e 1 istanza per istruzione e valutiamo una selezione di varianti ottimizzate per le istruzioni, possiamo vedere i seguenti risultati:

Prestazioni del modello GPT3 e delle sue varianti ottimizzate per le istruzioni, valutate da esperti umani sulle nostre 252 istruzioni orientate all'utente | Fonte: Autoistruzione: allineamento dei modelli linguistici con istruzioni autogenerate

GPT3 + Self-Instruct mostra risultati impressionanti rispetto ad altre varianti ottimizzate per le istruzioni, ma c'è ancora spazio per miglioramenti rispetto alle varianti InstructGPT (LLM precedentemente disponibili di OpenAI).

L'idea alla base di Self-Instruct è semplice, ma allo stesso tempo avvincente, quindi vediamo come possiamo utilizzarla in diversi casi.

Stanford Alpaca³

Nel 2023, Alpaca LLM di Stanford ha guadagnato un interesse colossale grazie alla convenienza, all'accessibilità e al fatto che è stato sviluppato per meno di $ 600 e, allo stesso tempo, combinava le idee LLaMA e Self-Instruct.

Panoramica di alto livello dell'alpaca | Fonte: Alpaca: un modello forte e replicabile che segue le istruzioni

La versione di Self-Instruct di Alpaca è stata leggermente modificata:

  • Passaggio 1 (generazione di istruzioni): è stata applicata una decodifica batch più aggressiva, ovvero la generazione di 20 istruzioni contemporaneamente
  • Fase 2 (compito di classificazione): questa fase è stata del tutto esclusa
  • Passaggio 3 (generazione dell'istanza): viene generata una sola istanza per istruzione

Alla fine, i ricercatori di Stanford hanno potuto ottenere miglioramenti significativi rispetto alla configurazione iniziale di Self-Instruct e sulla base di un confronto cieco a coppie tra text-davinci-003 (InstructGPT-003) e Alpaca 7B: Alpaca vince 90 contro 89 confronti con text-davinci-003.

Modelli linguistici autogratificanti⁴

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *