Il lungo e il corto: rilevanza basata sulle proporzioni per catturare la semantica dei documenti end-to-end | di Anthony Alcaraz | Novembre 2023 | Intelligenza-Artificiale

I metodi di ricerca dominanti oggi si basano in genere sulla corrispondenza delle parole chiave o sulla somiglianza dello spazio vettoriale per stimare la pertinenza tra una query e i documenti. Tuttavia, queste tecniche hanno difficoltà quando si tratta di cercare corpora utilizzando interi file, documenti o persino libri come query di ricerca.

Recupero basato su parole chiave

Sebbene le ricerche per parole chiave siano eccellenti per ricerche brevi, non riescono a catturare la semantica critica per i contenuti di lunga durata. Un documento che parla correttamente di “piattaforme cloud” potrebbe non essere completamente compreso da una query in cerca di competenze in “AWS”. Le corrispondenze esatte dei termini affrontano frequentemente problemi di mancata corrispondenza del vocabolario nei testi lunghi.

Ricerca di somiglianza vettoriale

I moderni modelli di incorporamento vettoriale come BERT hanno condensato il significato in centinaia di dimensioni numeriche stimando accuratamente la somiglianza semantica. Tuttavia, le architetture dei trasformatori con auto-attenzione non scalano oltre i 512-1024 token a causa dell’esplosione dei calcoli.

Senza la capacità di assimilare completamente i documenti, i risultanti incorporamenti parziali del “sacchetto di parole” perdono le sfumature di significato intervallate tra le sezioni. Il contesto si perde nell’astrazione.

La complessità di calcolo proibitiva limita anche la messa a punto della maggior parte dei corpora del mondo reale, limitando la precisione. L’apprendimento non supervisionato fornisce un’alternativa, ma mancano tecniche solide.

In un documento recentei ricercatori affrontano esattamente queste insidie reinventando la rilevanza per query e documenti ultra lunghi. Le loro innovazioni sbloccano un nuovo potenziale per la ricerca di documenti tramite intelligenza artificiale.

I paradigmi di ricerca dominanti oggi sono inefficaci per le query che contengono migliaia di parole come testo di input. Le principali questioni affrontate includono:

Trasformatori come BERT hanno una complessità quadratica di autoattenzione, che li rende irrealizzabili per sequenze oltre 512-1024 token. Le loro scarse alternative di attenzione compromettono la precisione.
Modelli lessicali la corrispondenza basata sull’esatta sovrapposizione dei termini non può dedurre una somiglianza semantica fondamentale per il testo di lunga durata.
La mancanza di dati di addestramento etichettati per la maggior parte delle raccolte di domini richiede…

Fonte: towardsdatascience.com