Una tassonomia dell’elaborazione del linguaggio naturale |  di Tim Schopf |  Settembre 2023

 | Intelligenza-Artificiale

Questo post si basa sul nostro documento RANLP 2023 Esplorare il panorama della ricerca sull’elaborazione del linguaggio naturale. Puoi leggere maggiori dettagli lì.

Come approccio efficiente per comprendere, generare ed elaborare testi in linguaggio naturale, la ricerca sull’elaborazione del linguaggio naturale (PNL) ha mostrato una rapida diffusione e un’ampia adozione negli ultimi anni. Considerati i rapidi sviluppi della PNL, ottenere una panoramica del dominio e mantenerla è difficile. Questo post sul blog mira a fornire una panoramica strutturata dei diversi campi di studio della PNL e analizza le tendenze recenti in questo dominio.

I campi di studio sono discipline e concetti accademici che solitamente consistono in (ma non sono limitati a) compiti o tecniche.

In questo articolo, esaminiamo le seguenti domande:

  • Quali sono i diversi campi di studio indagati nella PNL?
  • Quali sono le caratteristiche e gli sviluppi nel tempo della letteratura di ricerca in PNL?
  • Quali sono le tendenze attuali e le direzioni del lavoro futuro nella PNL?

Sebbene la maggior parte dei campi di studio della PNL siano ben noti e definiti, attualmente non esiste una tassonomia o uno schema di categorizzazione comunemente utilizzato che tenti di raccogliere e strutturare questi campi di studio in un formato coerente e comprensibile. Pertanto, ottenere una panoramica dell’intero campo della ricerca sulla PNL è difficile. Sebbene nelle conferenze e nei libri di testo siano presenti elenchi di argomenti di PNL, questi tendono a variare considerevolmente e sono spesso troppo ampi o troppo specializzati. Pertanto, abbiamo sviluppato una tassonomia che comprende un’ampia gamma di diversi campi di studio della PNL. Anche se questa tassonomia potrebbe non includere tutti i possibili concetti della PNL, copre un’ampia gamma dei campi di studio più popolari, per cui i campi di studio mancanti possono essere considerati come sottoargomenti dei campi di studio inclusi. Durante lo sviluppo della tassonomia, abbiamo scoperto che alcuni campi di studio di livello inferiore dovevano essere assegnati a più campi di studio di livello superiore anziché a uno solo. Pertanto, alcuni campi di studio sono elencati più volte nella tassonomia della PNL, ma assegnati a diversi campi di studio di livello superiore. La tassonomia finale è stata sviluppata empiricamente in un processo iterativo insieme ad esperti del settore.

La tassonomia funge da schema di classificazione generale in cui le pubblicazioni di PNL possono essere classificate in base ad almeno uno dei campi di studio inclusi, anche se non affrontano direttamente uno dei campi di studio, ma solo i suoi sottoargomenti. Per analizzare i recenti sviluppi nella PNL, abbiamo addestrato un modello debolmente supervisionato per classificare i documenti dell’ACL Anthology secondo la tassonomia della PNL.

Puoi leggere maggiori dettagli sul processo di sviluppo del modello di classificazione e della tassonomia della PNL nel nostro carta.

La sezione seguente fornisce brevi spiegazioni dei concetti di campi di studio inclusi nella tassonomia della PNL di cui sopra.

Multimodalità

“La multimodalità si riferisce alla capacità di un sistema o metodo di elaborare input di diversi tipi o modalità” (Garg et al., 2022). Distinguiamo tra sistemi in grado di elaborare il testo in linguaggio naturale insieme a dati visivi, parlato e audio, linguaggi di programmazioneO dati strutturati come tabelle o grafici.

Interfacce del linguaggio naturale

“Le interfacce in linguaggio naturale possono elaborare dati sulla base di query in linguaggio naturale” (Voigt et al., 2021), solitamente implementato come risposta alla domanda O dialogo e sistemi conversazionali.

Elaborazione semantica del testo

Questo campo di studio di alto livello comprende tutti i tipi di concetti che tentano di ricavare significato dal linguaggio naturale e consentono alle macchine di interpretare semanticamente i dati testuali. Uno dei campi di studio più potenti a questo riguardo sono “modelli linguistici che tentano di apprendere la funzione di probabilità congiunta di sequenze di parole” (Bengio et al., 2000). “I recenti progressi nella formazione dei modelli linguistici hanno consentito a questi modelli di eseguire con successo vari compiti a valle della PNL” (Soni et al., 2022). In apprendimento della rappresentazione“Le rappresentazioni semantiche del testo vengono solitamente apprese sotto forma di incorporamenti” (Fu et al., 2022)che “può essere utilizzato per confrontare il somiglianza semantica di testi in ricerca semantica impostazioni” (Reimers e Gurevych, 2019). Inoltre, “rappresentazioni della conoscenzaad esempio, sotto forma di grafici della conoscenza, possono essere incorporati per migliorare vari compiti della PNL” (Schneider et al., 2022).

Analisi del sentimento

“L’analisi del sentiment tenta di identificare ed estrarre informazioni soggettive dai testi” (Wankhade et al., 2022). Di solito, gli studi si concentrano sull’estrazione opinioni, emozioniO polarità dai testi. Più recentemente, analisi del sentiment basata sugli aspetti è emerso come un modo per fornire informazioni più dettagliate rispetto all’analisi generale del sentiment, poiché “mira a prevedere le polarità del sentiment di determinati aspetti o entità nel testo” (Xue e Li, 2018).

Elaborazione sintattica del testo

Questo campo di studi di alto livello mira ad “analizzare la sintassi grammaticale e il vocabolario dei testi” (Bessmertny et al., 2016). I compiti rappresentativi in ​​questo contesto sono analisi sintattica delle dipendenze delle parole nelle frasi, etichettatura delle parole nella rispettiva parte del discorso, segmentazione di testi in sezioni coerenti, o correzione di testi errati rispetto alla grammatica e all’ortografia.

Linguistica e PNL cognitiva

“La PNL linguistica e cognitiva si occupa del linguaggio naturale basandosi sul presupposto che le nostre abilità linguistiche siano saldamente radicate nelle nostre capacità cognitive, che il significato sia essenzialmente concettualizzazione e che la grammatica sia modellata dall’uso” (Dabrowska e Divjak, 2015). Tante differenti teorie linguistiche sono presenti che generalmente sostengono che “l’acquisizione del linguaggio è governata da regole grammaticali universali che sono comuni a tutti gli esseri umani con sviluppo tipico” (Saggio e Sevcik, 2017). “Psicolinguistica tenta di modellare il modo in cui un cervello umano acquisisce e produce il linguaggio, lo elabora, lo comprende e fornisce feedback” (Balamurugan, 2018). “Modellazione cognitiva si occupa di modellare e simulare i processi cognitivi umani in varie forme, in particolare in forma computazionale o matematica” (Sole, 2020).

PNL responsabile e affidabile

“La PNL responsabile e affidabile si occupa di implementare metodi focalizzati sull’equità, spiegabilitàresponsabilità e etico aspetti fondamentali” (Barredo Arrieta et al., 2020). PNL verde e sostenibile si concentra principalmente su approcci efficienti per l’elaborazione del testo, mentre PNL con poche risorse mira a eseguire attività di PNL quando i dati sono scarsi. Inoltre, robustezza nella PNL tenta di sviluppare modelli insensibili ai bias, resistenti alle perturbazioni dei dati e affidabili per le previsioni fuori distribuzione.

Ragionamento

Il ragionamento consente alle macchine di trarre conclusioni logiche e ricavare nuova conoscenza sulla base delle informazioni a loro disposizione, utilizzando tecniche come la deduzione e l’induzione. “Estrazione degli argomenti identifica ed estrae automaticamente la struttura dell’inferenza e del ragionamento espressi come argomenti presentati in testi in linguaggio naturale2 (Lawrence e Reed, 2019). “Inferenza testualesolitamente modellato come problema di implicazione, determina automaticamente se si tratta di un linguaggio naturale ipotesi si può dedurre da un dato premessa” (MacCartney e Manning, 2007). “Ragionamento basato sul buon senso collega premesse e ipotesi utilizzando la conoscenza del mondo che non è esplicitamente fornita nel testo” (Ponti et al., 2020), Mentre “ragionamento numerico esegue operazioni aritmetiche” (Al-Negheimish et al., 2021). “Comprensione della lettura automatica mira a insegnare alle macchine a determinare le risposte corrette alle domande sulla base di un dato passaggio” (Zhang et al., 2021).

Multilinguismo

La multilinguità affronta tutti i tipi di compiti della PNL che coinvolgono più di una lingua naturale ed è convenzionalmente studiata traduzione automatica. Inoltre, “commutazione di codice scambia liberamente più lingue all’interno di una singola frase o tra frasi” (Diwan et al., 2021), Mentre trasferimento interlinguistico le tecniche utilizzano dati e modelli disponibili per una lingua per risolvere compiti di PNL in un’altra lingua.

Recupero delle informazioni

“Il recupero delle informazioni riguarda la ricerca di testi che soddisfano un bisogno di informazione all’interno di grandi collezioni” (Manning et al., 2008). In genere, ciò comporta il recupero documenti O passaggi.

Estrazione di informazioni ed estrazione di testo

Questo campo di studi si concentra sull’estrazione di conoscenza strutturata da testo non strutturato e “consente l’analisi e l’identificazione di modelli o correlazioni nei dati” (Hassani et al., 2020). “Classificazione del testo categorizza automaticamente i testi in classi predefinite” (Schopf et al., 2021), Mentre “modellazione dell’argomento mira a scoprire argomenti latenti nelle raccolte di documenti” (Grootendorst, 2022), spesso utilizzando raggruppamento del testo tecniche che organizzano testi semanticamente simili negli stessi cluster. “Riepilogo produce riassunti di testi che includono i punti chiave dell’input in meno spazio e riducono al minimo le ripetizioni” (El-Kassas et al., 2021). Inoltre, il campo di studio dell’estrazione di informazioni e del text mining comprende anche “riconoscimento dell’entità denominatache si occupa dell’identificazione e della categorizzazione delle entità denominate” (Leitner et al., 2020), “risoluzione coreferenziale, che mira a identificare tutti i riferimenti alla stessa entità nel discorso” (Yin et al., 2021), “estrazione dei termini, Quale mira a estrarre termini rilevanti come parole chiave o frasi chiave” (Rigouts Terryn et al., 2020), estrazione delle relazioni che mira a estrarre relazioni tra entità, e “estrazione aperta delle informazioni che facilita la scoperta indipendente dal dominio di tuple relazionali” (Yates et al., 2007).

Generazione di testo

L’obiettivo degli approcci di generazione di testo è generare testi che siano comprensibili agli esseri umani e indistinguibili dal testo scritto da esseri umani. Di conseguenza, l’input solitamente è costituito da testo, come in “parafrasando che rende il testo immesso in una forma superficiale diversa preservandone la semantica” (Niu et al., 2021), “generazione di domande che mira a generare una domanda fluida e pertinente dato un passaggio e una risposta mirata” (Canzone et al., 2018), O “generazione di dialoghi-risposte che mira a generare testo dall’aspetto naturale pertinente al prompt” (Zhang et al., 2020). In molti casi, però, il testo viene generato a seguito di input provenienti da altre modalità, come nel caso di “generazione di dati in testo che genera testo basato su dati strutturati come tabelle o grafici” (Cavolo e Rastogi, 2020), didascalia di immagini o video, oppure “riconoscimento vocale che trascrive la forma d’onda del parlato in testo” (Baevski et al., 2022).

Il numero di articoli all’anno nell’Antologia ACL dal 1952 al 2022. Immagine dell’autore

Considerando la letteratura sulla PNL, iniziamo la nostra analisi con il numero di studi come indicatore dell’interesse della ricerca. La distribuzione delle pubblicazioni nel periodo di osservazione di 50 anni è mostrata nella Figura sopra. Mentre le prime pubblicazioni risalgono al 1952, il numero delle pubblicazioni annuali è cresciuto lentamente fino al 2000. Tra il 2000 e il 2017 il numero delle pubblicazioni è quindi quasi quadruplicato, mentre nei successivi cinque anni è nuovamente raddoppiato. Osserviamo quindi una crescita quasi esponenziale nel numero di studi sulla PNL, indicando una crescente attenzione da parte della comunità di ricerca.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *