Ottieni il massimo da Pandas GroupBy.  Dagli esempi di base a quelli pratici… |  di Kurt Klingensmith |  Ottobre 2023

 | Intelligenza-Artificiale

Dagli esempi base all’esercizio pratico

fotografato da Alex Suprun SU Unsplash.

La libreria panda di Python include molti strumenti utili per interrogare e manipolare i dati, uno dei quali è la potente funzione GroupBy. Questa funzione consente di raggruppare le osservazioni per varie categorie e aggregarle in numerosi modi.

All’inizio potrebbe sembrare confuso, ma questa guida illustrerà come utilizzare la funzione e le sue varie funzionalità. La procedura dettagliata include:

  • Un’introduzione a GroupBy.
  • Applicazione di GroupBy ai set di dati di esercitazione.
  • Varie tecniche di GroupBy.
  • Esercizio pratico e applicazione.

Codice e Dati:

I dati e il notebook Jupyter con il codice Python completo utilizzato in questa procedura dettagliata sono disponibile nella pagina github collegata. Scarica o clona il repository per seguirlo. Questa guida utilizza dati sintetici con nomi falsi generati dall’autore per questo articolo; i dati sono disponibili nella pagina github collegata.

Il codice richiede le seguenti librerie:

# Data Handling
import pandas as pd
import numpy as np

# Data visualization
import plotly.express as px

1.1. Guida introduttiva: caricamento dei dati e nozioni di base su GroupBy

Il primo passo è caricare un set di dati:

# Load Data:
df = pd.read_csv('StudentData.csv')
df.head(3)

Viene ottenuto il seguente dataframe con informazioni sugli studenti che hanno sostenuto una serie di test a scuola. Include la loro età, tre punteggi dei test, quando hanno frequentato il corso, il voto medio, il voto in lettere e se hanno superato o meno:

Schermata dell’autore

GroupBy di Pandas consente di suddividere il dataframe in elementi di interesse e di applicarvi una sorta di funzione. Il modo più semplice per pensare a GroupBy è formulare una domanda che l’operazione GroupBy risolve. Un semplice punto di partenza è chiedere quanti studenti hanno superato il corso:

df.groupby('CoursePass')('CoursePass').count()

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *