Modellazione degli argomenti con BERTtopic in Python | di Petr Korab | Aprile 2024 | Intelligenza-Artificiale

Tutorial pratico sulla modellazione di dichiarazioni politiche con un modello di argomenti all'avanguardia basato su trasformatore

Modellazione degli argomenti (cioè l'identificazione dell'argomento in un corpus di dati testuali) si è sviluppato rapidamente a partire dal Allocazione Dirichlet latente (LDA) modello era pubblicato. Questo classico modello tematico, tuttavia, non coglie bene le relazioni tra le parole perché si basa sul concetto statistico di a sacco di parole. Basato sull'incorporamento recente Top2Vec E ARGOMENTO i modelli risolvono i suoi svantaggi sfruttando modelli linguistici pre-addestrati per generare argomenti.

In questo articolo useremo Maarten Grootendorst (2022) ARGOMENTO identificare i termini che rappresentano argomenti nelle trascrizioni dei discorsi politici. Supera la maggior parte dei modelli tematici tradizionali e moderni nelle metriche di modellazione degli argomenti su vari corpora ed è stato utilizzato in aziendemondo accademico (Chagnon, 2024) e il settore pubblico. Esploreremo nel codice Python:

come preelaborare efficacemente i dati
come creare un modello di argomenti Bigram
come esplorare i termini più frequenti nel tempo.

Come set di dati di esempio, utilizzeremo il file Empoliticon: set di dati su discorsi politici, contesto ed emozionirilasciato sotto il Attribuzione 4.0 Licenza Internazionale, come parte di Efat et al. (2023) carta. Contiene le trascrizioni dei discorsi politici del 2010 dei presidenti/primi ministri di Stati Uniti, Regno Unito, Cina e Russia. Per rendere il modello tematico più mirato, il sottoinsieme include solo i 556 discorsi dei leader russi:

Fonte: Emopoliticon: set di dati Political Speeches-Context & Emotion

Lavorare con set di dati di testo è complesso. La semplice pulizia prevede diversi passaggi che dovrebbero rimuovere sistematicamente tutte le informazioni non necessarie dal set di dati. Seleziona tutto requisiti per questo progetto qui.

2.1. Correzione degli errori di mojibake

Mojibake è una parola giapponese per il testo confuso derivante da errori di codifica dei caratteri. Ecco un esempio:

Fonte: towardsdatascience.com