L'attenzione dall'allineamento, spiegata praticamente | di Daniel Warfield | Intelligenza-Artificiale

Impara da ciò che conta, ignora ciò che non conta.

fotografato da Armand Khoury SU Unsplash

Attenzione, come reso popolare dal famoso articolo L’attenzione è tutto ciò di cui hai bisogno (2017), è probabilmente la tendenza architetturale più importante nel machine learning in questo momento. Originariamente destinato alla modellazione da sequenza a sequenza, l’attenzione è esplosa praticamente in ogni sottodisciplina dell’apprendimento automatico.

Questo post descriverà un particolare tipo di attenzione che ha preceduto lo stile di attenzione del trasformatore. Discuteremo come funziona e perché è utile. Esamineremo anche alcuni documenti e un tutorial che implementa questa forma di attenzione in PyTorch. Leggendo questo post avrai una comprensione più approfondita dell’attenzione come concetto generale, utile per esplorare applicazioni più all’avanguardia.

Il meccanismo dell’attenzione è stato originariamente reso popolare in Traduzione automatica neurale imparando congiuntamente ad allineare e tradurre(2014), che costituisce il riferimento guida per questo particolare post. Questo articolo utilizza un’architettura codificatore-decodificatore per la traduzione dall’inglese al francese.

L’architettura del codificatore-decodificatore in poche parole, per un compito di traduzione dal francese all’inglese

Si tratta di un’architettura molto comune, ma i dettagli esatti possono cambiare drasticamente da un’implementazione all’altra. Ad esempio, parte della letteratura precedente sulla sequenza di codificatori-decodificatori era costituita da reti ricorrenti che “costruivano” e quindi “decostruivano” in modo incrementale l’incorporamento.

Concettualizzazione del flusso di informazioni di una semplice sequenza per sequenziare un codificatore-decodificatore ricorrente. Il codificatore incorpora in modo incrementale le parole inglesi, parola per parola, nello spazio di incorporamento, che viene poi decostruito dal decodificatore. In questo diagramma, i cerchi rappresentano gli incorporamenti in tutto il codificatore (rosso), lo spazio di incorporamento intermedio (bianco) e in tutto il decodificatore (blu). In questo caso, gli incorporamenti sono vettori lunghi e complessi con un contenuto astratto che non è facilmente interpretabile dall’uomo.

Questa idea generale, con piccole variazioni, è stata lo stato dell’arte per diversi anni. Tuttavia, un problema con questo approccio è che l’intera sequenza di input deve essere incorporata nello spazio di incorporamento, che generalmente è un vettore di dimensione fissa. Di conseguenza, questi modelli possono facilmente dimenticare il contenuto di sequenze troppo lunghe. Il meccanismo di attenzione è stato progettato per alleviare il problema di dover adattare l’intera sequenza di input nello spazio di incorporamento. Lo fa dicendo al modello which…

Fonte: towardsdatascience.com