![L’attenzione dall’allineamento, spiegata praticamente | di Daniel Warfield
| Intelligenza-Artificiale L’attenzione dall’allineamento, spiegata praticamente | di Daniel Warfield
| Intelligenza-Artificiale](https://intelligenza-artificiale.eu/wp-content/uploads/2023/10/Lattenzione-dallallineamento-spiegata-praticamente-di-Daniel-Warfield-Intelligenza-Artificiale.jpeg)
Attenzione, come reso popolare dal famoso articolo L’attenzione è tutto ciò di cui hai bisogno (2017), è probabilmente la tendenza architetturale più importante nel machine learning in questo momento. Originariamente destinato alla modellazione da sequenza a sequenza, l’attenzione è esplosa praticamente in ogni sottodisciplina dell’apprendimento automatico.
Questo post descriverà un particolare tipo di attenzione che ha preceduto lo stile di attenzione del trasformatore. Discuteremo come funziona e perché è utile. Esamineremo anche alcuni documenti e un tutorial che implementa questa forma di attenzione in PyTorch. Leggendo questo post avrai una comprensione più approfondita dell’attenzione come concetto generale, utile per esplorare applicazioni più all’avanguardia.
Il meccanismo dell’attenzione è stato originariamente reso popolare in Traduzione automatica neurale imparando congiuntamente ad allineare e tradurre(2014), che costituisce il riferimento guida per questo particolare post. Questo articolo utilizza un’architettura codificatore-decodificatore per la traduzione dall’inglese al francese.
Si tratta di un’architettura molto comune, ma i dettagli esatti possono cambiare drasticamente da un’implementazione all’altra. Ad esempio, parte della letteratura precedente sulla sequenza di codificatori-decodificatori era costituita da reti ricorrenti che “costruivano” e quindi “decostruivano” in modo incrementale l’incorporamento.
Questa idea generale, con piccole variazioni, è stata lo stato dell’arte per diversi anni. Tuttavia, un problema con questo approccio è che l’intera sequenza di input deve essere incorporata nello spazio di incorporamento, che generalmente è un vettore di dimensione fissa. Di conseguenza, questi modelli possono facilmente dimenticare il contenuto di sequenze troppo lunghe. Il meccanismo di attenzione è stato progettato per alleviare il problema di dover adattare l’intera sequenza di input nello spazio di incorporamento. Lo fa dicendo al modello which…
Fonte: towardsdatascience.com