Impara a costruire una rete convoluzionale di grafici in grado di gestire dati di grafici eterogenei per la previsione dei collegamenti

Immagine da Pixabay

Questo articolo è un approfondimento tecnico dettagliato su come creare un modello potente per il rilevamento di anomalie con dati grafici contenenti entità di diverso tipo (dati grafici eterogenei).

Il modello che imparerai si basa sul documento intitolato “Rilevamento di anomalie focalizzato sull’interazione su grafici bipartiti attribuiti a nodi e bordi” presentato da Grab, un’azienda tecnologica asiatica, alla conferenza International Joint Conference on Neural Networks (IJCNN) del 2023.

Questo modello di rete convoluzionale del grafico (GCN) può gestire dati grafici eterogenei, il che significa che i nodi e gli spigoli sono di tipi diversi. Questi grafici sono strutturalmente complessi in quanto rappresentano relazioni tra diversi tipi di entità o nodi.

I GCN in grado di gestire dati grafici eterogenei rappresentano un’area di ricerca attiva. Le operazioni convoluzionali nel modello sono state adattate per affrontare le sfide legate alla gestione di diversi tipi di nodi e delle loro relazioni in un grafico eterogeneo.

Al contrario, i grafi omogenei coinvolgono nodi e archi dello stesso tipo. Questo tipo di grafico è strutturalmente più semplice. Un esempio di grafico omogeneo include le connessioni LinkedIn, in cui tutti i nodi rappresentano individui e esistono bordi tra gli individui se sono connessi.

L’esempio che vedrai qui applica il modello GraphBEAN di Grab (Bipartite Node-and-Edge-UNtattribuito Networks) a un Kaggle set di dati sulle frodi dei fornitori di servizi sanitari. (Questo set di dati è attualmente concesso in licenza CC0: dominio pubblico su Kaggle. Tieni presente che questo set di dati potrebbe non essere accurato e viene utilizzato in questo articolo solo a scopo dimostrativo). Il set di dati contiene più file CSV con richieste di risarcimento e approfondimenti sui dati dei pazienti ospedalizzati, sui dati dei pazienti ambulatoriali e sui dati dei beneficiari.

Dimostrerò come creare un GCN per prevedere le frodi degli operatori sanitari utilizzando il set di dati dei pazienti ospedalieri e il set di treni contenente ProviderIDe una colonna etichetta (PotentialFraud).

Sebbene i dati del grafico possano essere difficili da visualizzare in forma tabellare, come i file CSV, puoi renderli interessanti…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *