Scopri informazioni nascoste utilizzando la profilazione ydata

L’analisi esplorativa dei dati (EDA) svolge un ruolo cruciale nella scienza dei dati, poiché ci consente di ottenere informazioni approfondite e comprendere i modelli all’interno di un set di dati. In uno dei miei articoli precedenti, ho introdotto la comodità di una libreria Python chiamata “Pandas GUI”, che è uno strumento EDA Python pronto all’uso.

Ora rivolgiamo la nostra attenzione a “ydata-profiling”, un successore della popolare libreria “pandas-profiling”. “ydata-profiling” offre funzionalità EDA avanzate e risolve i limiti del suo predecessore, rendendolo una risorsa inestimabile per data scientist e analisti.

Immagine di Steven da Pixabay

Come sempre, prima di poter iniziare a utilizzare la libreria, dobbiamo installarla utilizzando pip.

pip install ydata-profiling

Per condurre l’EDA, abbiamo bisogno di un set di dati. Usiamo uno dei set di dati pubblici più famosi: il set di dati Iris per questa demo. Puoi ottenerlo dalla libreria Sci-kit Learn. Tuttavia, per semplificare le cose, poiché in questa demo non utilizzeremo la libreria Sci-kit Learn, ho trovato il set di dati sul datahub.io sito web che puoi utilizzare direttamente.

https://datahub.io/machine-learning/iris/r/iris.csv

Possiamo caricare facilmente i dati dall’URL nel dataframe di Panda come segue.

import pandas as pd

df = pd.read_csv("https://datahub.io/machine-learning/iris/r/iris.csv")
df.head()

Quindi, possiamo importare il file ProfileReport modulo dalla libreria di profilazione ydata per generare il report EDA dal dataframe panda.

from ydata_profiling…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *