Il set di dati utilizzato nella Parte 1 è semplice e può essere facilmente modellato con un semplice mix di gaussiane. Tuttavia, la maggior parte dei set di dati del mondo reale sono molto più complessi. In questa parte della storia, applicheremo diversi generatori di dati sintetici ad alcuni popolari set di dati del mondo reale. Il nostro obiettivo principale è confrontare le distribuzioni delle somiglianze massime all’interno e tra i set di dati osservati e sintetici per comprendere la misura in cui possono essere considerati campioni casuali della stessa distribuzione principale.
I sei set di dati provengono dal repository UCI² e sono tutti set di dati popolari ampiamente utilizzati nella letteratura sul machine learning da decenni. Sono tutti set di dati di tipo misto e sono stati scelti perché variano nel loro equilibrio tra caratteristiche categoriche e numeriche.
I sei generatori sono rappresentativi dei principali approcci utilizzati nella generazione di dati sintetici: basati su copula, basati su GAN, basati su VAE e approcci che utilizzano l’imputazione sequenziale. CopulaGAN³, GaussianCopula, CTGAN³ e TVAE³ sono tutti disponibili da Deposito di dati sintetici librerie⁴, synthpop⁵ è disponibile come pacchetto R open source e “UNCRi” si riferisce allo strumento di generazione di dati sintetici sviluppato con il marchio proprietario Rappresentazione e inferenza numerica/categorica unificata quadro normativo (UNCRi)⁶. Tutti i generatori sono stati utilizzati con le impostazioni predefinite.
La tabella seguente mostra la media delle somiglianze massime intra- e cross-set per ciascun generatore applicato a ciascun set di dati. Le voci evidenziate in rosso sono quelle in cui la privacy è stata compromessa (vale a dire, la somiglianza media massima tra set supera la somiglianza media massima intra-set sui dati osservati). Le voci evidenziate in verde sono quelle con la somiglianza incrociata massima media più alta (escluse quelle in rosso). L’ultima colonna mostra il risultato dell’esecuzione di a Allenati su sintetico, prova su reale (TSTR), in cui un classificatore o regressore viene addestrato sugli esempi sintetici e testato sugli esempi reali (osservati). Il set di dati Boston Housing è un’attività di regressione e viene riportato l’errore medio assoluto (MAE); tutte le altre attività sono attività di classificazione e il valore riportato è l’area sotto la curva ROC (AUC).
Le figure seguenti mostrano, per ciascun set di dati, le distribuzioni delle massime somiglianze intra- e cross-set corrispondenti al generatore che ha raggiunto la massima somiglianza media cross-set media più alta (esclusi quelli evidenziati in rosso sopra).
Dalla tabella, possiamo vedere che per quei generatori che non hanno violato la privacy, la somiglianza media massima tra insiemi è molto vicina alla somiglianza media massima intra-insieme sui dati osservati. Gli istogrammi ci mostrano le distribuzioni di queste somiglianze massime e possiamo vedere che nella maggior parte dei casi le distribuzioni sono chiaramente simili, in modo sorprendente per set di dati come il set di dati sui redditi censiti. La tabella mostra inoltre che il generatore che ha ottenuto la massima somiglianza media tra set di dati più alta per ciascun set di dati (esclusi quelli evidenziati in rosso) ha dimostrato anche le migliori prestazioni nel test TSTR (esclusi nuovamente quelli in rosso). Pertanto, anche se non possiamo mai affermare di aver scoperto la “vera” distribuzione sottostante, questi risultati dimostrano che il generatore più efficace per ciascun set di dati ha catturato le caratteristiche cruciali della distribuzione sottostante.
Privacy
Solo due dei sette generatori hanno mostrato problemi di privacy: synthpop e TVAE. Ognuno di questi ha violato la privacy su tre dei sei set di dati. In due casi, in particolare TVAE sulla malattia cardiaca di Cleveland e TVAE sull’approvazione del credito, la violazione è stata particolarmente grave. Gli istogrammi per TVAE sull’approvazione del credito sono mostrati di seguito e dimostrano che gli esempi sintetici sono fin troppo simili tra loro e anche ai loro vicini più vicini nei dati osservati. Il modello è una rappresentazione particolarmente scarsa della distribuzione principale sottostante. La ragione di ciò potrebbe essere che il set di dati di approvazione del credito contiene diverse caratteristiche numeriche estremamente distorte.
Altre osservazioni e commenti
I due generatori basati su GAN – CopulaGAN e CTGAN – sono stati costantemente tra i generatori con le prestazioni peggiori. Ciò è stato in qualche modo sorprendente data l’immensa popolarità dei GAN.
Le prestazioni di GaussianCopula sono state mediocri su tutti i set di dati, ad eccezione del cancro al seno del Wisconsin, per il quale ha raggiunto la massima somiglianza tra set di dati mediamente più alta. Le sue prestazioni insignificanti sul set di dati Iris sono state particolarmente sorprendenti, dato che si tratta di un set di dati molto semplice che può essere facilmente modellato utilizzando una miscela di gaussiane e che ci aspettavamo sarebbe stato ben abbinato ai metodi basati su Copula.
I generatori che funzionano in modo più coerente su tutti i set di dati sono synthpop e UNCRi, che funzionano entrambi tramite imputazione sequenziale. Ciò significa che devono sempre e solo stimare e campionare da una distribuzione condizionale univariata (ad esempio, P(X₇|X₁, X₂, …)), e questo è in genere molto più semplice che modellare e campionare da una distribuzione multivariata (ad esempio, P(X₁, X₂, X₃, …)), che è (implicitamente) ciò che fanno GAN e VAE. Mentre synthpop stima le distribuzioni utilizzando alberi decisionali (che sono la fonte dell’overfitting a cui è incline), il generatore UNCRi stima le distribuzioni utilizzando un approccio basato sul vicino più vicino, con iperparametri ottimizzati utilizzando una procedura di convalida incrociata che impedisce l’overfitting.
La generazione di dati sintetici è un campo nuovo e in evoluzione e, sebbene non esistano ancora tecniche di valutazione standard, vi è consenso sul fatto che i test dovrebbero coprire fedeltà, utilità e privacy. Ma sebbene ciascuno di questi sia importante, non sono su un piano di parità. Ad esempio, un set di dati sintetico può ottenere buone prestazioni in termini di fedeltà e utilità ma fallire in termini di privacy. Questo non gli dà un “due su tre”: se gli esempi sintetici sono troppo vicini agli esempi osservati (fallendo così il test sulla privacy), il modello è stato sovradimensionato, rendendo i test di fedeltà e utilità privi di significato. C’è stata una tendenza tra alcuni fornitori di software di generazione di dati sintetici a proporre misure di prestazione a punteggio singolo che combinano i risultati di una moltitudine di test. Ciò si basa essenzialmente sulla stessa logica del “due su tre”.
Se un set di dati sintetici può essere considerato un campione casuale della stessa distribuzione principale dei dati osservati, allora non possiamo fare di meglio: abbiamo raggiunto la massima fedeltà, utilità e privacy. Il test di massima similarità fornisce una misura della misura in cui due set di dati possono essere considerati campioni casuali della stessa distribuzione principale. Si basa sul concetto semplice e intuitivo che se un set di dati osservato e un set di dati sintetico sono campioni casuali della stessa distribuzione principale, le istanze dovrebbero essere distribuite in modo tale che un’istanza sintetica sia in media simile alla sua istanza osservata più vicina quanto lo è un’istanza osservata. simile in media al suo esempio osservato più vicino.
Proponiamo la seguente misura a punteggio singolo della qualità del set di dati sintetici:
Più questo rapporto si avvicina a 1 – senza superarlo – migliore è la qualità dei dati sintetici. Dovrebbe, ovviamente, essere accompagnato da un controllo di integrità degli istogrammi.
Fonte: towardsdatascience.com