Esplorare l’ondata moderna dell’apprendimento automatico: smontare il trasformatore passo dopo passo
In questo post imparerai a conoscere l’architettura del trasformatore, che è al centro dell’architettura di quasi tutti i modelli linguistici di grandi dimensioni all’avanguardia. Inizieremo con una breve cronologia di alcuni concetti rilevanti di elaborazione del linguaggio naturale, quindi esamineremo il trasformatore passo dopo passo e scopriremo come funziona.
A chi è utile? Chiunque sia interessato all’elaborazione del linguaggio naturale (PNL).
Quanto è avanzato questo post? Questo non è un post complesso, ma contiene molti concetti, quindi potrebbe essere scoraggiante per i data scientist meno esperti.
Prerequisiti: Una buona conoscenza operativa di una rete neurale standard. Probabilmente sarebbe utile anche una superficiale esperienza con incorporamenti, codificatori e decodificatori.
Le sezioni seguenti contengono concetti e tecnologie utili da conoscere prima di dedicarsi ai trasformatori. Sentiti libero di saltare avanti se ti senti sicuro.
Incorporamenti di vettori di parole
Una comprensione concettuale degli incorporamenti di vettori di parole è praticamente fondamentale per comprendere l’elaborazione del linguaggio naturale. In sostanza, l’incorporamento di un vettore di parole prende singole parole e le traduce in un vettore che in qualche modo ne rappresenta il significato.
I dettagli possono variare da implementazione a implementazione, ma il risultato finale può essere pensato come uno “spazio di parole”, dove lo spazio obbedisce a determinate relazioni convenienti. È difficile fare calcoli sulle parole, ma i vettori che contengono informazioni su una parola e su come si collegano ad altre parole sono molto più facili da usare. Questo compito di convertire le parole in vettori viene spesso definito “incorporamento”.
Word2Vect, un documento fondamentale nello spazio di elaborazione del linguaggio naturale, ha cercato di creare un incorporamento che obbedisse a determinate caratteristiche utili. Essenzialmente…
Fonte: towardsdatascience.com