Cosa sono query, chiave e valore nell’architettura del trasformatore e perché vengono utilizzati?  |  di Ebrahim Pichka |  Ottobre 2023

 | Intelligenza-Artificiale

Un’analisi dell’intuizione dietro la nozione di chiave, query e valore nell’architettura Transformer e perché viene utilizzata.

Immagine per autore — generata da A metà viaggio

RNegli ultimi anni l’architettura Transformer ha fatto scalpore nel campo dell’elaborazione del linguaggio naturale (NLP), ottenendo risultati all’avanguardia in una varietà di attività tra cui la traduzione automatica, la modellazione del linguaggio e il riepilogo del testo, così come altri domini dell’intelligenza artificiale, ovvero visione, parola, RL, ecc.

Vaswani et al. (2017), hanno introdotto per la prima volta il trasformatore nel loro articolo “L’attenzione è tutto ciò di cui hai bisogno”in cui hanno utilizzato il meccanismo di auto-attenzione senza incorporare connessioni ricorrenti mentre il modello può concentrarsi selettivamente su porzioni specifiche di sequenze di input.

L’architettura del modello Transformer – Immagine da Vaswani et al. (2017) articolo (Fonte: arXiv:1706.03762v7)

In particolare, i modelli di sequenza precedenti, come i modelli ricorrenti di codificatore-decodificatore, erano limitati nella loro capacità di catturare dipendenze a lungo termine e calcoli paralleli. In effetti, subito prima della pubblicazione del documento Transformers nel 2017, prestazioni all’avanguardia nella maggior parte dei compiti di PNL venivano ottenute utilizzando RNN con un meccanismo di attenzione in cima, quindi l’attenzione esisteva già prima dei trasformatori. Introducendo da solo il meccanismo di attenzione multi-testa ed eliminando la parte RNN, l’architettura del trasformatore risolve questi problemi consentendo più meccanismi di attenzione indipendenti.

In questo post esamineremo uno dei dettagli di questa architettura, ovvero Query, Chiave e Valori, e proveremo a dare un senso all’intuizione utilizzata dietro questa parte.

Tieni presente che questo post presuppone che tu abbia già familiarità con alcuni concetti di base della PNL e del deep learning come incastri, Strati lineari (densi).e in generale come funziona una semplice rete neurale.

Innanzitutto, iniziamo a capire cosa sta cercando di ottenere il meccanismo dell’attenzione. E per semplicità, cominciamo con un caso semplice di dati sequenziali per capire esattamente quale problema…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *