Terra in movimento, parola e concetto.  La distanza come misura della differenza |  di Daniele Boccelli |  Gennaio 2024

 | Intelligenza-Artificiale

fotografato da Nadine Shaban SU Unsplash

La distanza come misura della differenza

Questo articolo discute tre misure di distanza: (1) la distanza del movimento della terra (EMD; Rubner et al., 1998); (2) la distanza del Word Mover (WMD; Kusner et al., 2015); e (3) la distanza del Concept Mover (CMD; Stoltz & Taylor, 2019). Queste misure si basano l’una sull’altra in modo tale che il CMD deriva dalle WMD, che a loro volta derivano dall’EMD; la progressione da una misura a quella successiva non è del tutto lineare, poiché un’opera si basa indirettamente sulla precedente per servire a uno scopo diverso, e quindi il movimento da un’opera a quella successiva è di per sé interessante da considerare. Per questo motivo, in questo articolo verranno discusse sia le misure di distanza stesse che la progressione da una all’altra.

La distanza del movimento della terra (EMD) è presentata da Rubner et al. (1998) come misura della distanza per migliorare la ricerca nel database di immagini. La misura viene descritta utilizzando una metafora in cui il terreno distribuito in un certo modo viene utilizzato per riempire buchi distribuiti in un altro modo, ma il caso considerato nel documento non è così letterale. Più specificamente, prendendo come caso d’uso la ricerca nel database di immagini, Rubner et al. mostrano che l’EMD può essere calcolato tra coppie di immagini e che un EMD inferiore indica una maggiore somiglianza. L’analisi si concentra sul colore e sulla trama come proprietà puntuali e regionali delle immagini, rispettivamente, ma l’analisi della trama è limitata alle immagini con trama uniforme. La discussione lega queste proprietà alla loro importanza per la percezione umana e conclude che l’EMD fornisce una misura intuitiva della somiglianza delle immagini. Per mostrare il potenziale dell’EMD nella navigazione di grandi insiemi di immagini, viene utilizzato il ridimensionamento multidimensionale per tracciare le immagini in due dimensioni in modo tale che le informazioni fornite dall’EMD vengano preservate.

Rubner et al. si basa sulle misure esistenti per il calcolo della distanza tra gli istogrammi, e uno dei principali contributi del documento è l’uso di “firme” di immagini piuttosto che di istogrammi completi; lì, una firma viene definita raggruppando le caratteristiche di un’immagine (ad esempio, caratteristiche del colore, caratteristiche della trama) e rappresentando l’immagine come un insieme di contenitori (per prendere in prestito la terminologia dell’istogramma), dove ciascun contenitore è definito dal centro del cluster e dalla dimensione del grappolo. In altre parole, una firma è un’alternativa a un istogramma per il quale i contenitori sono definiti dai dati anziché dai dati Primo. L’uso delle firme migliora la compattezza dei dati e quindi migliora l’efficienza computazionale dei calcoli della distanza riducendo anche il rischio di sovra o sottostimare una distanza rispetto ai metodi precedenti. Inoltre, Rubner et al. riferiscono che l’EMD consente corrispondenze parziali e che è una “vera metrica” quando i pesi totali di due firme sono uguali.

Alla luce delle proprietà algebriche delle rappresentazioni delle parole evidenziate da Mikolov et al. (2013), la distanza del Word Mover (WMD) è presentata da Kusner et al. (2015) per estendere l’EMD dal recupero delle immagini alla classificazione e al recupero dei documenti. Rappresentando ciascuna parola di un documento, dove un documento è un sacchetto di parole, mediante la rappresentazione vettoriale derivata da un algoritmo di incorporamento come word2vec, la distanza tra due documenti può essere calcolata minimizzando la distanza che ciascuna parola incorporata deve percorrere per trasformarne uno. documento in un altro. Rispetto all’EMD, l’WMD opera su un diverso tipo di dati, ma il calcolo della distanza è più o meno lo stesso e si possono utilizzare gli stessi macchinari di ottimizzazione. Inoltre, analogamente al caso del colore considerato da Rubner et al., Kusner et al. considerare un documento come una nuvola di punti di parole (ma quella che potrebbe essere considerata la trama di un documento è lasciata all’immaginazione).

In linea con le firme delle immagini presentate da Rubner et al., Kusner et al. mostrare che i requisiti computazionali possono essere ridotti nel contesto del recupero dei documenti sfruttando la distanza del baricentro delle parole, che può essere calcolata utilizzando una media dei vettori delle parole di un documento, per porre un limite inferiore alle WMD; tuttavia, le WMD così come presentate non raggruppano prima le parole in un documento per creare una firma del documento, e infatti, l’interpretabilità delle WMD, che deriva dalla possibilità di considerare il movimento puntuale da un documento all’altro, viene presentata come una dei maggiori benefici derivanti dall’utilizzo della misura.

Nelle presentazioni dell’EMD e delle WMD, la vicinanza tra gli elementi viene utilizzata per indicare la loro somiglianza, e questa nozione di somiglianza viene considerata un modo utile per eseguire attività di recupero. Il Concept Mover’s Distance (CMD) presentato da Stoltz & Taylor (2019), al contrario, presuppone che vi sia un valore analitico per tale misura di somiglianza. Più specificamente, Stoltz e Taylor differenziano il CMD dalle WMD attraverso l’uso di uno “pseudo documento ideale” rispetto al quale i documenti possono essere analizzati. Questo pseudo documento viene definito dall’analista in base alle esigenze dello studio e, secondo Stoltz & Taylor, questo approccio presenta i seguenti vantaggi: (1) cattura bene la struttura dei concetti; (2) è affidabile documentare la lunghezza e la potatura dei termini sparsi; e (3) può essere utilizzato indipendentemente dal fatto che il concetto di interesse sia presente nel documento.

Per dimostrare il potere analitico del CMD, Stoltz e Taylor esaminano tre ipotesi (vale a dire, l’ipotesi di Jaynes (1976) sulla coscienza (o la sua mancanza) nel Iliade, OdisseaE Versione di Re Giacomo della Bibbia; uno che sostiene che il numero di morti nelle opere shakespeariane è correlato all’impegno con il concetto di morte; e, seguendo la teoria dei modelli morali nella politica degli Stati Uniti di Lakoff (2002), uno che esamina l’impegno con i concetti di “padre severo” e “genitore premuroso” nei discorsi sullo stato dell’Unione), e mostrano che il CMD produce valori che allinearsi con le aspettative. È importante sottolineare che Stoltz e Taylor notano che l’approccio CMD è utile quando esiste una teoria esistente da testare e non commentano la fisicità del CMD.

Le tre misure qui discusse mirano a definire la distanza tra una coppia di elementi come un modo per quantificare la differenza, ma nel passaggio da uno all’altro, la fisicità della distanza si indebolisce. Più specificamente, se confrontato con l’EMD, che si basa su una connessione relativamente diretta con la percezione umana, l’WMD si rimette ampiamente all’elevata qualità dei word embedding e alla validità dei parametri di classificazione per supportare la sua capacità di misurare la distanza semantica (questa deferenza può essere ragionevole dato lo specifico tipo di complessità che caratterizza i dati testuali, ma la fisicità della misura rispetto ai dati risulta comunque indebolita). Inoltre, nel passaggio da WMD a CMD, la destinazione rispetto alla quale una fonte può essere misurata non viene più osservata ma piuttosto costruita come un ideale – una pratica che sembra a questo punto più un’arte che una scienza. I passaggi da una misura a quella successiva non denigrano necessariamente il potenziale di tali approcci alla misurazione della differenza, poiché il potenziale è relativo ai requisiti del compito da svolgere, ma passando dal concetto di spostare la terra per riempire i buchi all’EMD stesso e quindi verso WMD e CMD comporta una stratificazione di astrazione che deve essere considerata quando si valuta il significato della differenza.

  1. Jaynes, Giuliano. 1976. Le origini della coscienza nella disgregazione della mente bicamerale. Houghton Mifflin.
  2. Kusner, MJ, Sun, Y., Kolkin, NI e Weinberger, KQ (2015). Dalle incorporazioni di parole alle distanze di documenti. Atti della 32a Conferenza Internazionale sull’Apprendimento Automatico. Conferenza internazionale sull’apprendimento automatico, Lille, Francia.
  3. Lakoff, George. (2002). Politica morale: come pensano liberali e conservatori. Chicago, IL: Università di Chicago Press.
  4. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Stima efficiente delle rappresentazioni di parole nello spazio vettoriale. http://arxiv.org/abs/1301.3781
  5. Rubner, Y., Tomasi, C., & Guibas, LJ (1998). Una metrica per le distribuzioni con applicazioni ai database di immagini. Sesta conferenza internazionale sulla visione artificiale (IEEE Cat. №98CH36271)59–66. https://doi.org/10.1109/ICCV.1998.710701
  6. Stoltz, DS e Taylor, MA (2019). Concept Mover’s Distance: misurazione del coinvolgimento dei concetti tramite l’inclusione di parole nei testi. Giornale di scienze sociali computazionali, 2(2), 293–313. https://doi.org/10.1007/s42001-019-00048-6

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *