L’analisi esplorativa dei dati (EDA) svolge un ruolo cruciale nella scienza dei dati, poiché ci consente di ottenere informazioni approfondite e comprendere i modelli all’interno di un set di dati. In uno dei miei articoli precedenti, ho introdotto la comodità di una libreria Python chiamata “Pandas GUI”, che è uno strumento EDA Python pronto all’uso.
Ora rivolgiamo la nostra attenzione a “ydata-profiling”, un successore della popolare libreria “pandas-profiling”. “ydata-profiling” offre funzionalità EDA avanzate e risolve i limiti del suo predecessore, rendendolo una risorsa inestimabile per data scientist e analisti.
Come sempre, prima di poter iniziare a utilizzare la libreria, dobbiamo installarla utilizzando pip
.
pip install ydata-profiling
Per condurre l’EDA, abbiamo bisogno di un set di dati. Usiamo uno dei set di dati pubblici più famosi: il set di dati Iris per questa demo. Puoi ottenerlo dalla libreria Sci-kit Learn. Tuttavia, per semplificare le cose, poiché in questa demo non utilizzeremo la libreria Sci-kit Learn, ho trovato il set di dati sul datahub.io
sito web che puoi utilizzare direttamente.
https://datahub.io/machine-learning/iris/r/iris.csv
Possiamo caricare facilmente i dati dall’URL nel dataframe di Panda come segue.
import pandas as pddf = pd.read_csv("https://datahub.io/machine-learning/iris/r/iris.csv")
df.head()
Quindi, possiamo importare il file ProfileReport
modulo dalla libreria di profilazione ydata per generare il report EDA dal dataframe panda.
from ydata_profiling…
Fonte: towardsdatascience.com