GLiNER è un modello NER in grado di identificare qualsiasi tipo di entità utilizzando un codificatore di trasformatori bidirezionali (simile a BERT) che supera ChatGPT e altri LLM nelle attività di classificazione dei token zero-shot
Chi ha lavorato in passato con il paradigma NER (named entità riconoscimento) conosce bene il valore di avere un modello performante per il compito su cui è stato addestrato.
Infatti, I modelli NER sono estremamente utili per attività di data mining e analisi testuale — sono il fondamento di ogni attività di intelligenza digitale e di una miriade di attività legate a pipeline di data science più ampie e complesse.
Chi fa NER sa anche quanto sia complesso addestrare un modello del genere a causa dell’enorme quantità di etichette da specificare durante la fase di training. Librerie come SpaCy e i modelli Hugging Face basati su trasformatore hanno aiutato notevolmente i data scientist a sviluppare modelli NER in modo sempre più efficiente, il che migliora ancora il processo fino a un certo punto.
In questo articolo vedremo insieme il Paradigma GLiNER, una nuova tecnica per l'estrazione di entità che combina il classico paradigma NER con la potenza dei LLM.
Fonte: towardsdatascience.com