Dopo aver inviato un recente articolo alla redazione di Towards Data Science, ho ricevuto un messaggio in risposta con una semplice domanda: i set di dati sono concessi in licenza per uso commerciale? È stata un’ottima domanda: da dove provengono i set di dati nella mia bozza Nato dal mareuna libreria Python comune che viene fornita completa di 17 set di dati di esempio (1). I set di dati sembravano certamente open source e, infatti, molti avevano licenze facilmente individuabili che ne autorizzavano l’uso commerciale. Sfortunatamente per me, mi è capitato di scegliere uno dei pochi set di dati per il quale non sono riuscito a trovare una licenza. Ma invece di passare a un diverso set di dati Seaborn, ho deciso di creare i miei dati sintetici.
Cosa sono i dati sintetici?
Kim Martineau di IBM definisce i dati sintetici come “informazioni generate su un computer per aumentare o sostituire dati reali per migliorare i modelli di intelligenza artificiale, proteggere i dati sensibili e mitigare i pregiudizi” (2).
I dati sintetici possono Aspetto come informazioni provenienti da un evento del mondo reale, ma non lo è. Ciò evita problemi di licenza, nasconde i dati proprietari e protegge le informazioni personali.
I dati sintetici differiscono dai dati anonimizzati o mascherati, che prendono dati reali da eventi reali e alterano determinati campi per rendere i dati non attribuibili. Se stai cercando nomi anonimi nei dati, puoi leggere a istruzioni sull’anonimizzazione dei nomi qui.
I dati sintetici non devono essere perfetti. In il mio articolo precedente caso d’uso, stavo scrivendo una guida su come utilizzare la funzione Python GroupBy(). Tutto ciò di cui avevo bisogno era un set di dati contenente dati numerici, dati categorici e un dominio (in questo caso, punteggi e voti dei test degli studenti) comprensibile al lettore per aiutarmi a trasmettere il messaggio. Sulla base del lavoro svolto per quell’articolo, di seguito fornirò una guida sulla creazione di un tuo set di dati sintetici.
Codice:
Il notebook Jupyter con il codice Python completo utilizzato in questa procedura dettagliata è disponibile nella pagina github collegata. Scarica o clona il repository per seguirlo!
Il codice richiede le seguenti librerie:
# Data Handling
import pandas as pd
import numpy as np# Data visualization
import plotly.express as px
# Anonymizer:
from faker import Faker
Fonte: towardsdatascience.com