Che tu stia eseguendo un’analisi esplorativa dei dati o costruendo un sistema ML complesso, devi assicurarti che i dati vengano puliti
Il Web è una risorsa di grande valore come fonte di dati. Ad esempio, una notevole quantità di dati di addestramento utilizzati per creare modelli linguistici di grandi dimensioni proviene dal web.
Tuttavia, di solito non è nel formato più adatto. I dati web sono principalmente non strutturati (cioè sotto forma di testo libero). Anche se hanno una struttura predefinita, i dati web richiedono molta pulizia e preelaborazione prima di poter essere utilizzati per scopi analitici.
In questo articolo prenderemo un set di dati disordinato che include il prezzo e alcuni altri attributi delle auto e lo ripuliremo utilizzando la libreria Pandas.
Puoi scaricare il set di dati da my set di dati repository se vuoi seguire ed eseguire tu stesso il codice. Si chiama “mock_car_dataset”. Alcune delle operazioni che eseguiremo su questo set di dati disordinato sono le seguenti:
- Manipolazione delle stringhe
- Gestione dei tipi di dati
- Filtraggio basato su stringhe
- Sostituzione dei valori
- Aggiornamento dei valori delle colonne utilizzando altre colonne
- Formattazione dei dati numerici
- Analizzare i dati per rilevare problemi
Ho creato il set di dati con dati fittizi. Tuttavia, è proprio come un set di dati di un’auto che potresti recuperare dal web. Lo so perché l’ho già fatto prima.
Il set di dati è in formato CSV. Iniziamo con la creazione di un DataFrame Panda da questo file.
import pandas as pd# create DataFrame
cars = pd.read_csv("mock_car_dataset.csv")
# check the shape
cars.shape
# output
(20, 6)
Il set di dati contiene 20 righe e 6 colonne, il che significa che abbiamo dati di 6 attributi per 20 auto. Nonostante si tratti di un dataset di piccole dimensioni, le operazioni che faremo possono essere facilmente applicate a dataset molto più grandi (ad esempio centinaia di migliaia di righe)
Vediamo quali sono questi attributi ( cars.head()
ti mostrerà quanto segue):
Fonte: towardsdatascience.com