La libreria panda di Python include molti strumenti utili per interrogare e manipolare i dati, uno dei quali è la potente funzione GroupBy. Questa funzione consente di raggruppare le osservazioni per varie categorie e aggregarle in numerosi modi.
All’inizio potrebbe sembrare confuso, ma questa guida illustrerà come utilizzare la funzione e le sue varie funzionalità. La procedura dettagliata include:
- Un’introduzione a GroupBy.
- Applicazione di GroupBy ai set di dati di esercitazione.
- Varie tecniche di GroupBy.
- Esercizio pratico e applicazione.
Codice e Dati:
I dati e il notebook Jupyter con il codice Python completo utilizzato in questa procedura dettagliata sono disponibile nella pagina github collegata. Scarica o clona il repository per seguirlo. Questa guida utilizza dati sintetici con nomi falsi generati dall’autore per questo articolo; i dati sono disponibili nella pagina github collegata.
Il codice richiede le seguenti librerie:
# Data Handling
import pandas as pd
import numpy as np# Data visualization
import plotly.express as px
1.1. Guida introduttiva: caricamento dei dati e nozioni di base su GroupBy
Il primo passo è caricare un set di dati:
# Load Data:
df = pd.read_csv('StudentData.csv')
df.head(3)
Viene ottenuto il seguente dataframe con informazioni sugli studenti che hanno sostenuto una serie di test a scuola. Include la loro età, tre punteggi dei test, quando hanno frequentato il corso, il voto medio, il voto in lettere e se hanno superato o meno:
GroupBy di Pandas consente di suddividere il dataframe in elementi di interesse e di applicarvi una sorta di funzione. Il modo più semplice per pensare a GroupBy è formulare una domanda che l’operazione GroupBy risolve. Un semplice punto di partenza è chiedere quanti studenti hanno superato il corso:
df.groupby('CoursePass')('CoursePass').count()
Fonte: towardsdatascience.com