Visualizza in modo professionale le distribuzioni dei dati in Python | di Kurt Klingensmith | Febbraio 2024 | Intelligenza-Artificiale

Indice contenuti

Impara sette diversi metodi per visualizzare le distribuzioni dei dati

L’analisi esplorativa e la visualizzazione dei dati spesso includono l’ispezione della distribuzione di un set di dati. In questo modo si forniscono informazioni importanti sui dati, come l’identificazione dell’intervallo, dei valori anomali o dei raggruppamenti insoliti, della tendenza centrale dei dati e della distorsione all’interno dei dati. Il confronto di sottoinsiemi di dati può rivelare ancora più informazioni sui dati a disposizione. Una visualizzazione realizzata in modo professionale della distribuzione di un set di dati fornirà informazioni immediate. Questa guida descrive in dettaglio diverse opzioni per utilizzare rapidamente Python per creare visualizzazioni pulite e significative.

Visualizzazioni trattate:

Istogrammi
Grafici KDE (densità).
Complotti di gioia o complotti di Ridge
Diagrammi a scatola
Trame di violino
Trame a strisce e sciami
Grafici ECDF

Dati e Codice:

Questo articolo utilizza dati meteorologici completamente sintetici generati seguendo i concetti in uno dei miei articoli precedenti. I dati per questo articolo e il taccuino completo di Jupyter sono disponibili qui pagina GitHub collegata. Sentiti libero di scaricarli entrambi e seguirli oppure fare riferimento ai blocchi di codice di seguito.

Le librerie, le importazioni e le impostazioni utilizzate a tale scopo sono le seguenti:

# Data Handling:
import pandas as pd
from pandas.api.types import CategoricalDtype# Data Visualization Libraries:
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from joypy import joyplot
# Display Configuration:
%config InlineBackend.figure_format='retina'

Innanzitutto, carichiamo e prepariamo i dati, che sono un semplice frame di dati meteorologici sintetici che mostra varie letture della temperatura per 3 città nelle 4 stagioni.

# Load data:
df = pd.read_csv('weatherData.csv')# Set season as a categorical data type:
season = CategoricalDtype(('Winter', 'Spring', 'Summer', 'Fall'))
df('Season') = df('Season').astype(season)

Tieni presente che il codice imposta la colonna Stagione su un tipo di dati categoriale. Questo sarà…

Fonte: towardsdatascience.com