La mia ambizione per ARGOMENTO è renderlo il sportello unico per la modellazione degli argomenti consentendo una notevole flessibilità e modularità.
Questo è stato l’obiettivo degli ultimi anni e con il versione della v0.16Credo che siamo a un GRANDE passo avanti verso questo obiettivo.
Innanzitutto facciamo un piccolo passo indietro. Cos’è BERTopic?
Ebbene, BERTopic è un framework di modellazione di argomenti che consente agli utenti di creare essenzialmente la propria versione di un modello di argomenti. Con molte varianti della modellazione degli argomenti implementate, l’idea è che dovrebbe supportare quasi tutti i casi d’uso.
Con v0.16sono state implementate diverse funzionalità che credo porteranno BERTopic al livello successivo, ovvero:
- Modellazione di argomenti Zero-Shot
- Unione dei modelli
- Altro supporto per Large Language Model (LLM).
In questo tutorial, esamineremo quali sono queste funzionalità e per quali casi d’uso potrebbero essere utili.
Per cominciare, puoi installare BERTopic (con set di dati HF) come segue:
pip install bertopic datasets
Puoi anche seguire insieme al Taccuino di Google Colab per assicurarsi che tutto funzioni come previsto.
Le tecniche zero-shot generalmente si riferiscono all’assenza di esempi su cui addestrare i dati. Sebbene tu conosca l’obiettivo, non viene assegnato ai tuoi dati.
In BERTopic utilizziamo il Topic Modeling Zero-shot per trovare argomenti predefiniti in grandi quantità di documenti.
Immagina di avere degli abstract ArXiv sul machine learning e di sapere che l’argomento “Modelli linguistici di grandi dimensioni” è lì. Con Zero-shot Topic Modeling puoi chiedere a BERTopic di trovare tutti i documenti relativi a…
Fonte: towardsdatascience.com