Con quanta efficacia i diversi approcci al record linkage utilizzano le informazioni contenute nei record per fare previsioni?
Un problema pervasivo della qualità dei dati è quello di avere più record diversi che fanno riferimento alla stessa entità ma nessun identificatore univoco che leghi insieme queste entità.
In assenza di un identificatore univoco come un numero di previdenza sociale, possiamo utilizzare una combinazione di variabili individuali non univoche come nome, sesso e data di nascita per identificare gli individui.
Per ottenere la massima precisione nel record linkage, abbiamo bisogno di un modello che estragga quante più informazioni possibili da questi dati di input.
Questo articolo descrive i tre tipi di informazioni più importanti per effettuare una previsione accurata e il modo in cui tutti e tre vengono sfruttati dal modello Fellegi-Sunter utilizzato in Splink.
Descrive inoltre come alcuni approcci alternativi al record linkage eliminano alcune di queste informazioni, lasciando sul tavolo la precisione.
I tre tipi di informazioni
In generale, esistono tre categorie di informazioni rilevanti quando si tenta di prevedere se una coppia di record corrisponde:
- Somiglianza della coppia di record
- Frequenza dei valori nel set di dati complessivo e, più in generale, misurazione di quanto comuni siano i diversi scenari
- Qualità dei dati del set di dati complessivo
Diamo un’occhiata a ciascuno di essi a turno.
1. Somiglianza nel confronto di record a coppie: corrispondenza fuzzy
Il modo più ovvio per prevedere se due record rappresentano la stessa entità è misurare se le colonne contengono informazioni uguali o simili.
La somiglianza di ciascuna colonna può essere misurata quantitativamente utilizzando funzioni di corrispondenza fuzzy come Levenstein O Jaro Winker per testo o differenze numeriche come la differenza assoluta o percentuale.
Per esempio, Hammond
contro Hamond
ha una somiglianza Jaro-Winkler di 0,97 (1,0 è un punteggio perfetto). Probabilmente è un errore di battitura.
A queste misure potrebbe essere assegnato un peso e sommate insieme per calcolare un punteggio di somiglianza totale.
L’approccio è talvolta noto come corrispondenza fuzzy ed è una parte importante di un modello di collegamento accurato.
Tuttavia, l’utilizzo di questo approccio da solo presenta un grave inconveniente: i pesi sono arbitrari:
- L’importanza dei diversi campi deve essere indovinata dall’utente. Ad esempio, quale peso dovrebbe essere assegnato a una corrispondenza in base all’età? Come si confronta con una corrispondenza sul nome? Come dovremmo decidere l’entità dei pesi punitivi quando le informazioni non corrispondono?
- La relazione tra la forza della previsione e ciascuna metrica di corrispondenza fuzzy deve essere indovinata dall’utente, anziché essere stimata. Ad esempio, quanto dovrebbe cambiare la nostra previsione se il nome è una corrispondenza fuzzy Jaro-Winkler 0.9 invece di una corrispondenza esatta? Dovrebbe cambiare della stessa quantità se il punteggio Jaro-Winkler si riducesse a 0,8?
2. Frequenza dei valori nel set di dati complessivo o, più in generale, misurazione di quanto comuni siano i diversi scenari
Possiamo migliorare la corrispondenza fuzzy tenendo conto della frequenza dei valori nel set di dati complessivo (a volte nota come “frequenze dei termini”).
Per esempio, John
contro John
E Joss
contro Joss
sono entrambe corrispondenze esatte, quindi hanno lo stesso punteggio di somiglianza, ma la seconda è una prova di corrispondenza più forte della prima, perché Joss
è un nome insolito.
Il termine relativo frequenze di John
v Joss
fornire una stima basata sui dati dell’importanza relativa di questi diversi nomi, che può essere utilizzata per informare i pesi.
Questo concetto può essere esteso per comprendere record simili che non corrispondono esattamente. I pesi possono derivare da una stima di quanto sia comune osservare corrispondenze fuzzy nel set di dati. Ad esempio, se è molto comune vedere corrispondenze fuzzy sul nome con un punteggio Jaro-Winkler di 0,7, anche tra record non corrispondenti, allora se osserviamo una tale corrispondenza, non offre molte prove a favore di una corrispondenza . Nel collegamento probabilistico, queste informazioni vengono catturate in parametri noti come u
probabilità, che è descritta più dettagliatamente Qui.
3. Qualità dei dati del set di dati complessivo: misurare l’importanza delle informazioni non corrispondenti
Abbiamo visto che la corrispondenza fuzzy e gli approcci basati sulla frequenza dei termini possono consentirci di valutare la somiglianza tra i record e persino, in una certa misura, di ponderare l’importanza delle corrispondenze su colonne diverse.
Tuttavia, nessuna di queste tecniche aiuta a quantificare l’importanza relativa delle mancate corrispondenze rispetto alla probabilità di corrispondenza prevista.
I metodi probabilistici stimano esplicitamente l’importanza relativa di questi scenari stimando la qualità dei dati. Nel collegamento probabilistico, queste informazioni vengono catturate nel m
probabilità, che sono definite in modo più preciso Qui.
Ad esempio, se la qualità dei dati nella variabile genere è estremamente elevata, una mancata corrispondenza in termini di genere costituirebbe una prova evidente della reale corrispondenza dei due record.
Al contrario, se i record sono stati osservati per un certo numero di anni, una mancata corrispondenza sull’età non costituirebbe una prova evidente della corrispondenza dei due record.
Collegamento probabilistico
Gran parte del potere dei modelli probabilistici deriva dalla combinazione di tutte e tre le fonti di informazione in un modo che non è possibile in altri modelli.
Non solo tutte queste informazioni saranno incorporate nella previsione, ma anche pesi di corrispondenza parziali nel modello Fellegi-Sunter consentono di stimare l’importanza relativa dei diversi tipi di informazioni a partire dai dati stessi e quindi di ponderarli correttamente per ottimizzare la precisione.
Al contrario, le tecniche di corrispondenza fuzzy spesso utilizzano pesi arbitrari e non possono incorporare completamente le informazioni provenienti da tutte e tre le fonti. Gli approcci basati sulla frequenza dei termini non hanno la capacità di utilizzare le informazioni sulla qualità dei dati per ponderare negativamente le informazioni non corrispondenti o un meccanismo per ponderare adeguatamente le corrispondenze fuzzy.
L’autore è lo sviluppatore di Splinkun pacchetto Python gratuito e open source per il collegamento probabilistico su larga scala.
Fonte: towardsdatascience.com