![](https://intelligenza-artificiale.eu/wp-content/uploads/2024/05/Framework-di-autoistruzione-spiegato-di-Tsiu-zhen-tsin-Dmitrii-Marzo.jpeg)
Questa è l'idea principale dietro Self-Intsruct!
Passaggio 4: messa a punto del LM per seguire le istruzioni
Dopo aver completato tutti i passaggi precedenti, possiamo prendere un LM pre-addestrato e ottimizzarlo con le istruzioni sul set di dati generato per ottenere metriche migliori.
All'inizio dell'articolo, ho trattato alcune sfide che devono affrontare i LLM “orientati alle istruzioni”; vediamo come Self-Instruct consente di superarli.
Quantità
Con l'aiuto di sole 175 attività iniziali scritte da persone, sono state generate 52.000 istruzioni e 82.000 istanze:
Diversità
Per indagare quanto sia vario il set di dati generato, gli autori di Self-Instruct hanno utilizzato Berkley Neural Parser per analizzare le istruzioni e quindi estrarre il verbo più vicino alla radice e al suo primo oggetto sostantivo diretto. 26.000 istruzioni su 52.000 hanno un formato verbo-sostantivo, ma le altre 26.000 istruzioni hanno una struttura più complessa (ad esempio, “Classifica se questo tweet contiene contenuto politico o meno.”) o sono strutturate come domande (ad esempio, “Quale di queste affermazioni?” sono vere?”).
Qualità
Per dimostrare che Self-Instruct può generare compiti di alta qualità, sono state selezionate casualmente 200 istruzioni generate e campionata 1 istanza per istruzione, quindi l'autore del framework le ha valutate, ottenendo i seguenti risultati:
Come possiamo vedere, il 92% di tutte le attività descrive un'attività valida e il 54% ha tutti campi validi (dato che abbiamo generato 52.000 attività, almeno 26.000 rappresenteranno dati di alta qualità, il che è fantastico!)
Costi
Il framework Self-Instruct introduce anche notevoli vantaggi in termini di costi. Le fasi iniziali della generazione delle attività (passaggi 1-3) ammontano a soli 600 dollari, mentre l'ultimo passaggio di messa a punto utilizzando il modello GPT-3 comporta un costo di 338 dollari. È fondamentale tenerlo presente quando guardiamo i risultati!
Come Self-Instruct può migliorare la metrica ROUGE-L sul SuperNI (Istruzioni soprannaturali) insieme di dati? Per questo, possiamo confrontare i risultati di 1) LM pre-addestrati standard senza alcuna regolazione fine delle istruzioni (LM Vanilla), 2) modelli ottimizzati per le istruzioni (ottimizzazione per le istruzioni senza SuperNI) e 3) Modelli ottimizzati per le istruzioni addestrati su SuperNI (ottimizzazione per le istruzioni con SuperNI):
Come possiamo vedere, l'utilizzo di Self-Instruct dimostra un miglioramento assoluto del 33% rispetto al modello originale sul set di dati (1); allo stesso tempo, mostra che l'utilizzo del framework può anche migliorare leggermente i parametri dopo aver messo a punto il set di dati SuperNI (3).
Inoltre, se creiamo un nuovo set di dati (= invisibile) di 252 istruzioni e 1 istanza per istruzione e valutiamo una selezione di varianti ottimizzate per le istruzioni, possiamo vedere i seguenti risultati:
GPT3 + Self-Instruct mostra risultati impressionanti rispetto ad altre varianti ottimizzate per le istruzioni, ma c'è ancora spazio per miglioramenti rispetto alle varianti InstructGPT (LLM precedentemente disponibili di OpenAI).
L'idea alla base di Self-Instruct è semplice, ma allo stesso tempo avvincente, quindi vediamo come possiamo utilizzarla in diversi casi.
Stanford Alpaca³
Nel 2023, Alpaca LLM di Stanford ha guadagnato un interesse colossale grazie alla convenienza, all'accessibilità e al fatto che è stato sviluppato per meno di $ 600 e, allo stesso tempo, combinava le idee LLaMA e Self-Instruct.
La versione di Self-Instruct di Alpaca è stata leggermente modificata:
- Passaggio 1 (generazione di istruzioni): è stata applicata una decodifica batch più aggressiva, ovvero la generazione di 20 istruzioni contemporaneamente
- Fase 2 (compito di classificazione): questa fase è stata del tutto esclusa
- Passaggio 3 (generazione dell'istanza): viene generata una sola istanza per istruzione
Alla fine, i ricercatori di Stanford hanno potuto ottenere miglioramenti significativi rispetto alla configurazione iniziale di Self-Instruct e sulla base di un confronto cieco a coppie tra text-davinci-003 (InstructGPT-003) e Alpaca 7B: Alpaca vince 90 contro 89 confronti con text-davinci-003.
Modelli linguistici autogratificanti⁴
Fonte: towardsdatascience.com