Transformers: spiegato in modo intuitivo ed esaustivo | di Daniel Warfield | Settembre 2023 | Intelligenza-Artificiale

Indice contenuti

Esplorare l’ondata moderna dell’apprendimento automatico: smontare il trasformatore passo dopo passo

Immagine dell’autore utilizzando MidJourney. Tutte le immagini sono dell’autore se non diversamente specificato.

In questo post imparerai a conoscere l’architettura del trasformatore, che è al centro dell’architettura di quasi tutti i modelli linguistici di grandi dimensioni all’avanguardia. Inizieremo con una breve cronologia di alcuni concetti rilevanti di elaborazione del linguaggio naturale, quindi esamineremo il trasformatore passo dopo passo e scopriremo come funziona.

A chi è utile? Chiunque sia interessato all’elaborazione del linguaggio naturale (PNL).

Quanto è avanzato questo post? Questo non è un post complesso, ma contiene molti concetti, quindi potrebbe essere scoraggiante per i data scientist meno esperti.

Prerequisiti: Una buona conoscenza operativa di una rete neurale standard. Probabilmente sarebbe utile anche una superficiale esperienza con incorporamenti, codificatori e decodificatori.

Le sezioni seguenti contengono concetti e tecnologie utili da conoscere prima di dedicarsi ai trasformatori. Sentiti libero di saltare avanti se ti senti sicuro.

Incorporamenti di vettori di parole

Una comprensione concettuale degli incorporamenti di vettori di parole è praticamente fondamentale per comprendere l’elaborazione del linguaggio naturale. In sostanza, l’incorporamento di un vettore di parole prende singole parole e le traduce in un vettore che in qualche modo ne rappresenta il significato.

Il compito di un incorporatore di parole in vettori: trasformare le parole in numeri che in qualche modo catturano il loro significato generale.

I dettagli possono variare da implementazione a implementazione, ma il risultato finale può essere pensato come uno “spazio di parole”, dove lo spazio obbedisce a determinate relazioni convenienti. È difficile fare calcoli sulle parole, ma i vettori che contengono informazioni su una parola e su come si collegano ad altre parole sono molto più facili da usare. Questo compito di convertire le parole in vettori viene spesso definito “incorporamento”.

Word2Vect, un documento fondamentale nello spazio di elaborazione del linguaggio naturale, ha cercato di creare un incorporamento che obbedisse a determinate caratteristiche utili. Essenzialmente…

Fonte: towardsdatascience.com