Riconoscimento di entità denominate smascherato: la guida essenziale |  di Rechitasingh |  Marzo 2024

 | Intelligenza-Artificiale

Come estrarre informazioni personali dal corpus di testo utilizzando NER Like a Pro

9 minuti di lettura

4 ore fa

fotografato da Christopher Gower SU Unsplash

introduzione

Ok, immagina questo: hai montagne di articoli, riviste e blog pieni di informazioni che desideri elaborare. Ora immagina di pensare che sarebbe utile anche per la comunità se avessero la possibilità di lavorare con questi dati, TUTTAVIA, non vorrai condividere i dati subito poiché potrebbero contenere alcune informazioni personali che non dovrebbero essere condiviso senza il consenso di quelle persone.

Poiché non è possibile chiedere il permesso a tutte quelle persone, decidi di utilizzare le tue capacità e mascherare qualsiasi informazione personale secondo le linee guida FERPA. È prassi comune per le aziende mascherare i propri dati quando li condividono all'esterno per scopi di analisi o dimostrativi ed è più semplice con i dati numerici. E qui vogliamo fare lo stesso ma con dati testuali.

Ora qui, poiché stiamo parlando di dati di testo, utilizzeremo una tecnica di elaborazione del linguaggio naturale (NLP). Entra in Named Entity Recognition (NER), un fidato detective della PNL che sblocca quei tesori di dati nascosti. Lo scopo qui è identificare le informazioni personali.

Approfondiamo il funzionamento del NER, il concetto alla base del meccanismo NER, i modi per implementare NER, quale approccio di soluzione scegliere e perché e come implementare la soluzione a questo problema in Python.

Riconoscimento delle entità nominate (NER): la ripartizione tecnica

In termini semplici, il NER consiste nell'insegnare ai computer a individuare quelle specifiche “entità” all'interno dei testi, in questo caso le informazioni di identificazione personale (PII). Immagina di dare al tuo programma una serie di evidenziatori: uno per i nomi, uno per i luoghi, uno per le aziende, uno per l'università, la tessera studentesca, l'indirizzo e-mail o qualsiasi cosa che possa identificare personalmente una persona in questo caso e rischiare la sua/ la sua identità. Ecco uno sguardo a come funziona il NER:

  • Sistemi basati su regole: L'approccio della vecchia scuola. Creiamo regole scritte a mano, come “un nome di solito inizia con una lettera maiuscola”. Funziona decentemente per i casi di base ma può diventare estremamente complesso. Inoltre, se hai molte regole, può diventare sempre più confuso

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *