GPT è una serie ben nota di modelli le cui ultime versioni stanno attualmente dominando in vari compiti della PNL. La prima versione GPT ha rappresentato una pietra miliare significativa: essendo stato addestrato su enormi parametri di 120 milioni, questo modello ha dimostrato prestazioni all’avanguardia sui parametri di riferimento più importanti. Partendo da questo punto i ricercatori hanno cercato di migliorare la versione base.
Nel 2019, i ricercatori di OpenAI hanno rilasciato ufficialmente GPT-2. Era 10 volte più grande del GPT-1, il che gli ha permesso di migliorare ulteriormente le prestazioni. A parte questo, gli autori hanno ipotizzato questo nel loro lavoro Gli LLM sono studenti multitasking il che significa che possono imparare a svolgere più compiti contemporaneamente. Questa importante dichiarazione ha permesso di sviluppare ulteriormente i LLM in un quadro molto più efficiente.
In questo articolo faremo riferimento al funzionario Carta GPT-2 esaminando i suoi aspetti principali e i miglioramenti rispetto a GPT-1 e comprendendo un nuovo approccio per la costruzione di LLM.
Nota. Questo articolo presuppone che tu abbia già familiarità con la prima versione di GPT. In caso contrario, controlla Questo articolo.
L’importanza di comprendere l’evoluzione del GPT
Non è un segreto che con la recente introduzione di modelli potenti come ChatGPT o GPT-4, le prime versioni GPT non attirano più così tanta attenzione e appaiono obsolete.
Tuttavia, le seguenti ragioni spiegano l’importante motivazione alla base dello studio dell’evoluzione del GPT.
- Le prime versioni di GPT introducevano concetti di apprendimento delle lingue che sono ancora utilizzati dai modelli più recenti. L’esempio migliore è GPT-2 che innova la tecnica di apprendimento multitasking. Grazie a questo concetto, i moderni modelli GPT possono risolvere con precisione un’ampia varietà di compiti di PNL.
- Dal punto di vista algoritmico, la maggior parte degli LLM utilizza già molte tecniche avanzate e diventa più difficile innovare nuovi metodi efficienti. Questo è il motivo per cui i ricercatori della PNL si concentrano maggiormente sulla raccolta e sull’inserimento di dati di alta qualità nei modelli. Questo dettaglio spiega perché non c’è molta differenza tra i meccanismi di funzionamento interni nei primi modelli GPT, rispetto a ChatGPT-3.5 o GPT-4. Di conseguenza, le differenze più importanti riguardano solitamente la quantità di dati forniti e la complessità di una rete neurale. Comprendendo come funzionano i primi modelli GPT, puoi riconoscere automaticamente i concetti di funzionamento dei modelli più avanzati.
GPT-2 è costruito sopra GPT-1, il che significa che ha la stessa architettura. Durante l’addestramento, GPT-1 utilizza l’obiettivo standard di modellazione del linguaggio log-verosimiglianza:
Questa espressione può essere pensata come un’ottimizzazione della distribuzione di probabilità condizionale p(uscita | entrata) per un determinato compito (nel caso di GPT-1, il compito consiste nel prevedere il token successivo). Anche se questo approccio funziona bene per le singole attività, il modello non è ancora in grado di imparare a eseguire più attività. Ad esempio, un modello addestrato con l’obiettivo di cui sopra per prevedere il token successivo nella sequenza avrà prestazioni scarse su un problema di analisi del sentiment senza un’adeguata messa a punto.
Gli autori di GPT-2 hanno proposto un nuovo approccio per sostituire il comune pre-formazione + messa a punto quadro che consentirebbe a un modello addestrato di funzionare bene in diversi compiti. L’idea consiste nel non modellare la probabilità standard p(uscita | entrata) Ma compreso il condizionamento del compito p(output | input, attività) Invece. Esistono diversi approcci per incorporare il tipo di attività nel modello. La maggior parte dei metodi precedenti consideravano queste informazioni apportando modifiche a livello di architettura. Sebbene questo approccio abbia funzionato bene in passato, si è scoperto che non sarebbe stato necessario modificare l’architettura del modello per l’incorporazione del tipo di attività.
L’idea finale è questa compito le informazioni possono essere facilmente incorporate nella sequenza di input. Per esempio:
- Se una frase nella lingua A deve essere tradotta nella lingua B, la sequenza di input nel set di dati verrà scritta come:
- Se si dovesse dare una risposta ad una domanda in un contesto fornito, allora la sequenza di input assumerà la seguente forma:
Sorprendentemente, l’approccio descritto si è già dimostrato competitivo in lavori precedenti (ad esempio il modello MQAN)! L’unico svantaggio principale è la sua lenta velocità di apprendimento.
Apprendimento a colpo zero è un termine popolare e designa la capacità di un modello di eseguire un determinato compito senza aver ricevuto esplicitamente alcun esempio di formazione per esso. GPT-2 è un esempio di modello con questa capacità.
Per utilizzare l’idea dell’apprendimento multitasking della sezione precedente, per l’addestramento avremmo normalmente bisogno di un set di dati i cui oggetti contengano descrizioni di attività, input di testo ed etichette. Tuttavia, in realtà, gli autori hanno sviluppato un quadro robusto che trasforma questo problema supervisionato in uno non supervisionato e non necessita nemmeno di descrizioni delle attività!
I ricercatori lo hanno ipotizzato se un modello fosse addestrato su un set di dati ampio e diversificato, probabilmente ci sarebbero molte attività di dimostrazione linguistica in diversi domini che aiuterebbero sicuramente il modello a comprenderli appieno. Per convalidare questa ipotesi, gli autori hanno progettato un algoritmo di web scraping che raccoglieva le risposte umane su Reddit che avevano ricevuto almeno 3 Mi piace. Raccogliere tutte le possibili risposte di Reddit avrebbe probabilmente portato a problemi di qualità dei dati e sarebbe stato anche troppo grande per un modello. Di conseguenza, la versione finale del set di dati include 8 milioni di documenti contenenti 40 GB di dati di testo in totale.
Poiché il set di dati raccolto è molto diversificato, per tenere conto meglio di parole e caratteri rari, gli autori hanno incorporato una versione leggermente modificata di Byte-Pair Encoding (BPE) per le rappresentazioni di input.
Secondo il documento, GPT-2 ha la stessa architettura di GPT-1 ad eccezione di diverse modifiche:
- La normalizzazione dei livelli è stata spostata all’input di ciascun blocco Transformer ed è stata aggiunta al blocco finale dell’autoattenzione.
- I pesi degli strati residui sono divisi per √N all’inizializzazione dove (N è il numero di strati residui).
- La dimensione del contesto è stata aumentata da 512 a 1024.
- La dimensione del batch è aumentata da 64 a 512.
- La dimensione del vocabolario è stata ampliata da 40.000 token a 50.257.
Trasformando un problema supervisionato in un formato non supervisionato, l’apprendimento multitasking aiuta GPT-2 a migliorare le prestazioni su varie attività downstream (ad eccezione del riepilogo del testo) senza una messa a punto esplicita. Infatti, dopo diversi anni, questo framework di apprendimento continua a guadagnare costantemente popolarità nel machine learning.
Quando un set di dati di addestramento è sufficientemente ampio e diversificato, consente a modelli giganteschi di arricchire la conoscenza linguistica semplicemente ottimizzando l’obiettivo linguistico della log-verosimiglianza. Infine, GPT-2 è diventato un perfetto esempio di tale modello.
Tutte le immagini sono dell’autore se non diversamente specificato.
Fonte: towardsdatascience.com