La traduzione automatica (MT) può migliorare i sistemi di risposta alle domande (QA) esistenti, che hanno capacità linguistiche limitate, consentendo loro di supportare più lingue. Tuttavia, esiste uno svantaggio principale della MT: spesso non riesce a tradurre entità con nome che non sono traducibili parola per parola. Ad esempio, il titolo tedesco del film “Il Papa deve morire” è “Ein Papst zum Küssen”, che ha la traduzione letterale: “Un Papa da baciare”. Poiché la correttezza delle entità nominate è fondamentale per i sistemi di garanzia della qualità, tale sfida deve essere gestita correttamente. In questo articolo presentiamo il nostro approccio MT consapevole delle entità chiamato “Lingua Franca”. Sfrutta i grafici della conoscenza per utilizzare le informazioni archiviate lì per garantire la correttezza delle traduzioni delle entità denominate. E sì, funziona!
Il raggiungimento di traduzioni di alta qualità dipende in modo significativo dalla traduzione accurata delle entità denominate (EN) all’interno delle frasi. Sono stati proposti vari metodi per migliorare la traduzione delle NE, inclusi approcci che integrano i grafici della conoscenza (KG) per migliorare la traduzione delle entità, riconoscendo il ruolo centrale delle entità nella qualità complessiva della traduzione nel contesto della QA. È importante notare che la qualità della traduzione NE non è un obiettivo isolato; ha implicazioni più ampie per i sistemi coinvolti in attività come il recupero delle informazioni (IR) o la risposta alle domande basata sul grafico della conoscenza (KGQA). In questo articolo approfondiremo una discussione dettagliata sulla traduzione automatica (MT) e KGQA.
L’importanza dei sistemi KGQA risiede nella loro capacità di fornire risposte concrete agli utenti sulla base di dati strutturati (vedi figura sotto).
I sistemi KGQA sono componenti fondamentali dei moderni motori di ricerca che consentono loro di fornire risposte dirette ai propri utenti (Ricerca Google, screenshot per autore).
Inoltre, i sistemi KGQA multilingue svolgono un ruolo cruciale nell’affrontare il “divario linguistico digitale” sul Web. Ad esempio, gli articoli di Wikipedia relativi alla Germania, in particolare quelli dedicati a città o persone, contengono più informazioni in lingua tedesca che in altre lingue: questo squilibrio di informazioni può essere gestito dal sistema multilingue KGQA che è, tra l’altro, il nucleo di tutti i moderni motori di ricerca.
Una delle opzioni per consentire al sistema KGQA di rispondere a domande in diverse lingue è utilizzare la MT. Tuttavia, una MT standard deve affrontare notevoli sfide quando si tratta di tradurre NE, poiché numerose entità non sono facilmente traducibili e richiedono conoscenze di base per un’interpretazione accurata. Ad esempio, consideriamo il titolo tedesco del film “Il Papa deve morire”, che è “Ein Papst zum Küssen”. La traduzione letterale, “Un papa da baciare”, sottolinea la necessità di una comprensione contestuale che vada oltre un semplice approccio traduttivo.
Date le limitazioni dei metodi MT convenzionali nella traduzione delle entità, la combinazione dei sistemi KGQA con la MT spesso si traduce in NE distorti, riducendo significativamente la probabilità di una risposta accurata alle domande. Pertanto, è necessario un approccio potenziato per incorporare le conoscenze di base sulle NE in più lingue.
Questo articolo introduce e implementa un nuovo approccio per la traduzione automatica Named-Entity Aware (NEAMT) mirato a migliorare le capacità multilingue dei sistemi KGQA. Il concetto centrale di NEAMT prevede l’aumento della qualità della MT incorporando informazioni da un grafico della conoscenza (ad es Wikidata E DBpedia). Ciò si ottiene attraverso l’utilizzo della tecnica della “sostituzione dell’entità”.
Come dati per la valutazione utilizziamo il file QALD-9-più E QALD-10 set di dati. Quindi, utilizziamo più componenti all’interno del nostro framework NEAMT, che sono disponibili nel nostro deposito. Infine, l’approccio viene valutato su due sistemi KGQA: QRisposta E Qanary. La descrizione dettagliata dell’approccio è disponibile nella figura seguente.
In sostanza, il nostro approccio, durante il processo di traduzione, preserva gli EN conosciuti utilizzando la tecnica della sostituzione delle entità. Successivamente, queste entità vengono sostituite con le etichette corrispondenti da un grafico della conoscenza nella lingua di traduzione di destinazione. Questo processo meticoloso garantisce la traduzione precisa delle domande prima che vengano affrontate da un sistema KGQA.
Aderendo agli approfondimenti di il nostro articolo precedentedesigniamo l’inglese come lingua comune di traduzione di destinazione, portando alla nomenclatura del nostro approccio come “Lingua Franca” (ispirata al significato di linguaggio “ponte” o “link”.). È essenziale notare che il nostro framework è versatile e può adattarsi perfettamente a qualsiasi altra lingua come lingua di destinazione. È importante sottolineare che Lingua Franca si estende oltre l’ambito di KGQA e trova applicabilità in varie applicazioni di ricerca orientate alle entità.
L’approccio Lingua Franca comprende tre fasi principali: (1) Named Entity Recognition (NER) e Named Entity Linking (NEL), (2) l’applicazione della tecnica di sostituzione delle entità basata su entità denominate identificate e (3) l’utilizzo di una macchina strumento di traduzione per generare testo in una lingua di destinazione considerando le informazioni dei passaggi precedenti. In questo caso, l’inglese viene utilizzato costantemente come lingua di destinazione, in linea con la ricerca correlata che la ritiene la strategia più ottimale per la qualità della risposta alle domande (QA). Tuttavia, l’approccio non si limita all’inglese e, se necessario, è possibile utilizzare altre lingue.
L’approccio è implementato come framework open source, consentendo agli utenti di creare pipeline di traduzione automatica Named-Entity Aware (NEAMT) integrando componenti NER, NEL e MT personalizzati (vedere il nostro GitHub). I dettagli dell’approccio Lingua Franca per tutti i contesti sono illustrati nell’esempio fornito, come mostrato nella figura seguente.
I risultati sperimentali di questo studio sostengono fortemente la superiorità di Lingua Franca rispetto agli strumenti MT standard quando combinato con i sistemi KGQA.
Nella valutazione di ciascuna impostazione di sostituzione dell’entità, è stata calcolata la percentuale di segnaposto o etichette NE danneggiati dopo l’elaborazione tramite uno strumento MT. Questo tasso serve come indicatore dell’effettiva qualità della traduzione NE per le pipeline relative all’approccio. Le statistiche aggiornate sono le seguenti:
- Impostazione 1 (segnaposto simili a stringhe): il 6,63% dei segnaposto è stato perso o danneggiato.
- Impostazione 2 (segnaposto numerici): il 2,89% dei segnaposto è stato perso o danneggiato.
- Impostazione 3 (sostituzione degli NE con le etichette inglesi prima della traduzione): il 6,16% delle etichette era danneggiato.
Di conseguenza, con il nostro approccio, possiamo affermare con sicurezza che fino al 97,11% (Impostazione 2) degli NE riconosciuti in un testo sono stati tradotti correttamente.
Abbiamo analizzato i risultati relativi alla qualità del QA tenendo conto dei seguenti componenti sperimentali: una pipeline di approccio o uno strumento di MT standard, un linguaggio di origine e un benchmark KGQA. La figura seguente illustra il confronto tra l’approccio e la MT standard: questi risultati possono essere interpretati come uno studio di ablazione.
Il grafico a barre raggruppate illustra il Punteggio Macro F1 (ottenuto utilizzando Gerbil-QA) riguardanti ciascuna lingua e suddivisione. Nel contesto dello studio sull’ablazione, ciascun gruppo è composto da due barre: la prima riguarda il miglior approccio da noi proposto, mentre la seconda barra riflette le prestazioni di uno strumento MT standard (baseline).
Abbiamo osservato che nella maggior parte dei casi sperimentali (19 su 24) i sistemi KGQA che utilizzavano il nostro approccio hanno sovraperformato quelli che utilizzavano strumenti MT standard. Per verificare l’affermazione di cui sopra, abbiamo condotto il test dei ranghi con segno di Wilcoxon sugli stessi dati. Sulla base dei risultati del test (valore p = 0,0008, con α = 0,01), abbiamo rifiutato l’ipotesi nulla che denota che i risultati della qualità del QA non presentano differenze, ovvero combinando KGQA con MT standard e combinando KGQA con l’approccio. Pertanto, concludiamo che l’approccio, che si basa sul nostro framework NEAMT, migliora significativamente la qualità del QA rispondendo a domande multilingue rispetto agli strumenti MT standard.
La riproducibilità degli esperimenti è stata garantita ripetendoli e calcolando il coefficiente di correlazione di Pearson tra tutte le metriche di qualità del QA. Il coefficiente risultante di 0,794 corrisponde al valore limite tra correlazione forte e molto forte. Pertanto, assumiamo che i nostri esperimenti siano riproducibili.
Questo articolo introduce l’approccio NEAMT denominato Lingua francese. Progettato per potenziare le capacità multilingue e migliorare la qualità del QA rispetto agli strumenti MT standard, Lingua Franca è adattato per l’uso con i sistemi KGQA al fine di ampliare la portata dei suoi possibili utenti. L’implementazione e la valutazione di Lingua Franca utilizzano un quadro modulare NEAMT sviluppato dagli autori, con informazioni dettagliate fornite nella sezione sugli Esperimenti. I contributi chiave del documento includono: (1) essere il primo, per quanto ne sappiamo, a combinare l’approccio NEAMT (cioè Lingua Franca) con KGQA; (2) presentare un quadro modulare open source per NEAMT, consentendo alla comunità di ricerca di costruire le proprie pipeline MT; e (3) condurre una valutazione completa e uno studio di ablazione per dimostrare l’efficacia dell’approccio Lingua Franca.
Per il lavoro futuro, miriamo ad espandere la nostra configurazione sperimentale per comprendere una gamma più ampia di linguaggi, benchmark e sistemi KGQA. Per risolvere i segnaposto danneggiati nel processo di sostituzione delle entità, prevediamo di perfezionare i modelli MT utilizzando questi dati. Inoltre, verrà condotta un’analisi degli errori più dettagliata, concentrandosi sulla propagazione degli errori.
Non dimenticare di controllare il nostro documento di ricerca completo e il Repositorio GitHub.
Questa ricerca è stata finanziata dal Ministero federale dell’Istruzione e della Ricerca, Germania (BMBF) con i numeri di sovvenzione 01IS17046 e 01QE2056C, nonché dal Ministero della Cultura e della Scienza del Nord Reno-Westfalia, Germania (MKW NRW) con il numero di sovvenzione NW21– 059D. Questa ricerca è stata finanziata anche nell’ambito del progetto di ricerca QA4CB — Entwicklung von Question-Answering-Komponenten zur Erweiterung des Chatbot-Frameworks.
Fonte: towardsdatascience.com