Grafici della conoscenza risolti dall'entità.  Nuove parole.  Vecchi concetti.  Alla fine… |  di Mel Richey, Ph.D. |  Giugno 2024

 | Intelligenza-Artificiale

Nuove parole. Vecchi concetti. Alla fine, si tratta di fusione dei dati.

La risoluzione delle entità è un processo. Un grafico della conoscenza è un artefatto tecnico. E la combinazione dei due produce uno degli strumenti di fusione dei dati più potenti di cui disponiamo nel campo della rappresentazione e del ragionamento della conoscenza. Recentemente, gli ERKG si sono fatti strada nella narrativa dell'architettura dei dati, in particolare per le organizzazioni analitiche che desiderano che tutti i dati in un dato dominio siano collegati in un unico posto per l'analisi. Questo articolo decomprimerà l'Entity Resolved Knowledge Graph, l'ER, il KG e alcuni dettagli sulla loro implementazione.

È. La risoluzione delle entità (nota anche come risoluzione dell'identità, corrispondenza dei dati o collegamento dei record) è il processo computazionale mediante il quale le entità vengono deduplicate e/o collegate in un set di dati. Questo può essere semplice come risolvere due record in un database, uno elencato come Tom Riddle e l'altro elencato come TM Riddle. Oppure può trattarsi di un caso complesso, come quello di una persona che utilizza alias (Lord Voldemort), diversi numeri di telefono e più indirizzi IP per commettere frodi bancarie.

KG. Un grafico della conoscenza è una forma di rappresentazione della conoscenza che presenta visivamente i dati come entità e le relazioni tra loro. Le entità potrebbero essere persone, aziende, concetti, risorse fisiche, geolocalizzazione, ecc. Le relazioni potrebbero essere scambio di informazioni, comunicazione, viaggi, transazioni bancarie, transazioni computazionali, ecc. Le entità e le relazioni sono archiviate in un database grafico, pre-unite e rappresentate visivamente come nodi e bordi. Sembra qualcosa del genere…

Immagine dell'autore

Quindi…

ERKG. Un grafico della conoscenza che contiene più set di dati all'interno dei quali le entità sono connesse e deduplicate. In altre parole, non esistono entità duplicate (i nodi per Tom Riddle e TM Riddle sono stati risolti in un unico nodo). Inoltre, sono state scoperte connessioni latenti tra nodi potenzialmente correlati entro una soglia di probabilità accettabile (ad esempio, Tom Riddle, Lord Voldemort e Marvolo Riddle. A questo punto probabilmente ti starai chiedendo: “perché mai dovresti creare un grafico della conoscenza da più dati?” fonti che non lo è entità risolta? La risposta semplice è: “non lo faresti”. Detto questo, i metodi su come risolvere le entità e le tecnologie disponibili per la rappresentazione grafica rendono la creazione di un ERKG un compito arduo.

Questo è il primo ERKG che abbiamo mai realizzato.

Immagine dell'autore

Nel 2016, abbiamo inserito due set di dati in un database grafico: 1) individui presenti nell'elenco delle sanzioni internazionali dell'Office of Foreign Assets Control (OFAC) (blu) e 2) clienti di un'azienda che rimarrà anonima (rosa) . Ovviamente, l'intento dell'azienda era quello di scoprire se qualcuno dei suoi clienti fosse soggetto a sanzioni a livello internazionale senza effettuare una ricerca manuale nel database dell'OFAC. Sebbene il processo di pronto soccorso rappresentato da questo grafico sia probabilmente eccessivo per l'attività, esso È illustrativo.

La maggior parte delle entità risolte nel grafico sono comprese tra due e tre individui entro lo stesso set di dati (da blu a blu o da rosa a rosa). Questi probabilmente rappresentano record duplicati (quel problema di Tom Riddle contro TM Riddle di cui abbiamo parlato prima). In alcuni casi, la deduplicazione è estrema, come nei cluster rosa nella parte superiore dell'immagine. Qui vediamo che una singola persona è rappresentata da 5-10 record separati nel set di dati del cliente. Quindi, come minimo, vediamo che l'azienda ha bisogno di un processo di deduplicazione all'interno dei propri dati sui clienti.

La cosa interessante è nelle relazioni tra blu e rosa che vediamo identificate nella parte superiore dell'immagine. Questo è ciò che l'azienda cercava: risoluzioni societarie attraverso set di dati. Molti dei suoi clienti sono probabilmente individui sanzionati a livello internazionale.

Immagine dell'autore

Questo esempio è piuttosto semplice e può portare a concludere erroneamente che costruire un ERKG sia un'impresa semplice. È tutt'altro che semplice. Soprattutto se è necessario scalare diversi terabyte di dati e più utenti analisti.

Gli algoritmi leggeri di elaborazione del linguaggio naturale (PNL) (come le tecniche di corrispondenza fuzzy) sono abbastanza semplici da implementare. Questi possono facilmente gestire il problema Tom Riddle vs. TM Riddle. Ma quando si cerca di combinare più di due set di dati, possibilmente con più lingue e caratteri internazionali, il semplice processo di PNL diventa piuttosto piccante.

Sono necessarie soluzioni ER più avanzate anche per serie di problemi analitici più avanzati come l’antiriciclaggio o le frodi bancarie. La corrispondenza fuzzy non è sufficiente per identificare un autore che nasconde intenzionalmente la propria identità utilizzando più alias e tenta di eludere sanzioni o altre normative. Per questo, il processo ER dovrebbe includere approcci basati sull’apprendimento automatico e metodi più sofisticati che tengano conto di metadati aggiuntivi oltre al nome. Non è tutto PNL.

C'è anche un grande dibattito tra ER basato su grafici e ER a livello di set di dati. Per un'analisi basata su grafici con la massima fedeltà, sono necessari entrambi. Entità risolutive entro E attraverso set di dati poiché tali set di dati vengono inseriti in un database a grafo 1) riduce al minimo le operazioni su larga scala sul grafico che sono computazionalmente costose e 2) garantisce che il grafico contenga solo entità risolte (senza duplicati) all'inizio, il che fornisce anche enormi risparmi sui costi per l'architettura complessiva del grafico.

Una volta esistente un grafico della conoscenza risolta dall'entità, i team di data science possono quindi esplorare ulteriormente ulteriori ER attraverso tecniche ER basate su grafici. Queste tecniche hanno l'ulteriore vantaggio di sfruttare la topologia del grafico (ovvero la struttura intrinseca del grafico stesso) come caratteristica su cui prevedere le connessioni latenti tra i set di dati combinati.

L'ERKG può essere uno strumento analitico potente e visivamente intuitivo. Fornisce:

  • Fusione di più set di dati in un database grafico principale
  • Un grafico della conoscenza specifico del dominio rappresentato visivamente affinché gli analisti possano esplorarlo
  • La possibilità di specificare uno schema grafico vivente che rappresenta il modo in cui i dati vengono collegati e rappresentati agli analisti
  • La rappresentazione visiva della deduplicazione dei dati e delle connessioni esplicite all'interno e tra set di dati
  • Connessioni latenti (collegamenti previsti) all'interno e tra set di dati con la capacità di controllare la soglia di probabilità della previsione

L'ERKG diventa quindi la tela analitica su cui dipingere un'esplorazione vibrante e interconnessa di un dato dominio rappresentato attraverso più set di dati. È una soluzione di fusione dei dati e altamente intuitiva.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *