Utilizzare il tipo di dati Categoria quando si lavora con funzionalità categoriali a bassa cardinalità
Le variabili categoriali possono assumere un valore da un numero limitato di valori, che solitamente sono fissi. Ecco alcuni esempi di variabili categoriali:
- Indicatore del livello di conoscenza dell’inglese (A1, A2, B1, B2, C1, C2)
- Gruppo sanguigno di una persona (A, B, AB, 0)
- Informazioni demografiche come razza e sesso
- Livello scolastico
Pandas fornisce un tipo di dati dedicato di variabili categoriali ( category
O CategoricalDtype
). Sebbene tali dati possano anche essere archiviati con object
O string
tipi di dati, ci sono diversi vantaggi nell’usare i tipi di dati category
tipo di dati. Impareremo questi vantaggi, ma iniziamo prima con come lavorare con i dati categorici.
Quando creiamo una serie o un DataFrame con dati testuali, il suo tipo di dati diventa object
per impostazione predefinita. Usare category
tipo di dati, dobbiamo definirlo esplicitamente.
import pandas as pd# create Series
blood_type = pd.Series(("A", "B", "AB", "0"))
print(blood_type)
# output
0 A
1 B
2 AB
3 0
dtype: object
# create Series with category data type
blood_type = pd.Series(("A", "B", "AB", "0"), dtype="category")
print(blood_type)
# output
0 A
1 B
2 AB
3 0
dtype: category
Categories (4, object): ('0', 'A', 'AB', 'B')
Sebbene i valori siano gli stessi, i tipi di dati sono diversi come mostrato con dtype
quando stampi la serie.
Esamineremo 7 serie di esempi per apprendere i seguenti argomenti:
- Tipo di dati di categoria in DataFrames
- Categorie
- Aggiunta e aggiornamento di valori
- Aggiunta e rimozione di categorie
- Ordine tra le categorie
- Rinominare le categorie
- Vantaggi dell’utilizzo del tipo di dati categoria
Esempio 1: tipo di dati di categoria in DataFrames
Possiamo dichiarare category
tipo di dati durante la creazione di Series o DataFrame come abbiamo fatto sopra. Possiamo anche convertirli in category
successivamente utilizzando il…
Fonte: towardsdatascience.com