Per evitare il vecchio adagio “garbage in, garbage out”, è logico dedicare molto tempo alla comprensione e alla pulizia dei dati. Recentemente ho letto “The Kaggle Book” di Konrad Banachewicz e Luca Massaron, dove intervistano molti grandi maestri di Kaggle. È interessante notare che affrettarsi o saltare l’EDA è l’errore più comune commesso da loro e dai principianti.
Sappiamo tutti quanto sia importante l’EDA, eppure saltiamo ancora questo passaggio. Potrebbe essere perché è difficile sapere da dove cominciare, quali domande dovresti porre, o forse siamo troppo ansiosi di lanciarci nella modellazione.
Ecco 3 librerie Python che puoi utilizzare per automatizzare parzialmente la tua analisi esplorativa dei dati e iniziare con il tuo progetto dati.
I dati per l’analisi seguente provengono dal concorso Kaggle, House Prices – Advanced Regression Techniques.
Questa è la nuova versione della profilazione di Panda supportata da Spark e ora va oltre il semplice Pandas DataFrame.
L’obiettivo, tuttavia, rimane lo stesso: fornire un’esperienza di analisi esplorativa dei dati (EDA) su una riga. Questo pacchetto evidenzia l’importanza di disporre di un quadro di valutazione della qualità dei dati di facile implementazione. Questo framework non dovrebbe essere limitato alla fase iniziale del progetto ma piuttosto implementato durante tutto il progetto dati.
La profilazione Ydata può essere eseguita su due righe.
!pip install ydata-profiling
from ydata_profiling import ProfileReport#Generate the data profile report
profile = ProfileReport(train,title='EDA')
#show the report on the notebook
profile.to_notebook_iframe()
L’output mostra la distribuzione delle variabili e fornisce una serie di avvisi…
Fonte: towardsdatascience.com