Formazione e inferenza sul modello linguistico: dal concetto al codice |  di Cameron R. Wolfe, Ph.D.  |  Gennaio 2024

 | Intelligenza-Artificiale

Apprendimento e implementazione della previsione del token successivo con un modello di linguaggio casuale…

(Fotografato da Chris Ried SU Unsplash)

Nonostante tutto ciò che è stato realizzato con i modelli linguistici di grandi dimensioni (LLM), il concetto di base che alimenta tutti questi modelli è semplice: dobbiamo solo prevedere con precisione il token successivo! Sebbene alcuni possano (ragionevolmente) sostenere che la recente ricerca sugli LLM va oltre questa idea di base, la previsione del prossimo token è ancora alla base del pre-addestramento, della messa a punto (a seconda della variante) e del processo di inferenza di tutti i modelli del linguaggio causale, rendendolo un concetto fondamentale e importante da comprendere per qualsiasi professionista LLM.

“Forse è sorprendente che alla base di tutto questo progresso ci sia ancora il meccanismo autoregressivo originale per la generazione del testo, che prende decisioni a livello di token una per una e in modo da sinistra a destra.” — da (10)

All’interno di questa panoramica, faremo un’immersione profonda e pratica nel concetto di previsione del prossimo token per capire come viene utilizzato dai modelli linguistici sia durante l’addestramento che durante l’inferenza. Innanzitutto, impareremo queste idee a livello concettuale. Quindi, esamineremo un’implementazione effettiva (in PyTorch) dei processi di pretraining e inferenza del modello linguistico per rendere più concreta l’idea della prossima previsione del token.

Prima di approfondire l’argomento di questa panoramica, ci sono alcune idee fondamentali che dobbiamo comprendere. All’interno di questa sezione, esamineremo rapidamente questi concetti importanti e forniremo collegamenti a ulteriori letture per ciascuno.

L’architettura del trasformatore. Innanzitutto, dobbiamo avere una conoscenza pratica dell’architettura del trasformatore (5), in particolare della variante con solo decodificatore. Fortunatamente, abbiamo trattato ampiamente queste idee in passato:

Più fondamentalmente, dobbiamo anche comprendere l’idea di auto-attenzione e il ruolo che gioca nell’architettura del trasformatore. Più specificamente, grandi modelli di linguaggio causale: il tipo che studieremo in questa panoramica – utilizzare una variante particolare dell’autoattenzione chiamata causale a più teste…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *