Migliora le tue capacità di elaborazione dei dati utilizzando i panda

fotografato da Balázs Kétyi SU Unsplash

Se chiedi a un data scientist esperto e a un ingegnere di machine learning, cosa costa più tempo nel loro lavoro? Immagino che molti di loro diranno: preelaborazione dei dati: un passaggio che ripulisce i dati e li prepara per l’analisi sequenziale dei dati. Il motivo è semplice: spazzatura dentro, spazzatura fuori. Cioè, se non prepari i dati correttamente, le tue “intuizioni” sui dati difficilmente possono essere significative.

Sebbene la fase di preelaborazione dei dati possa essere piuttosto noiosa, Pandas fornisce tutte le funzioni essenziali che ci consentono di completare il nostro lavoro di pulizia dei dati in modo relativamente semplice. Tuttavia, a causa della sua versatilità, non tutti gli utenti conoscono tutte le funzionalità che la libreria Pandas ha da offrire. In questo articolo, vorrei condividere 3 funzioni meno conosciute, ma estremamente utili, che puoi provare nei tuoi progetti di data science.

Senza ulteriori indugi, tuffiamoci.

Nota: per fornire il contesto, supponi di essere responsabile della gestione e dell’analisi dei dati di un negozio di abbigliamento. Gli esempi riportati di seguito si basano su questo presupposto.

La prima funzione che voglio menzionare è explode. Questa funzione è utile quando si gestiscono dati in una colonna che contiene elenchi. Quando usi explode con questa colonna crei più righe estraendo ciascuno degli elementi nell’elenco in righe separate.

Ecco un semplice esempio di codice per mostrarti come utilizzare il file explode funzione. Supponiamo di avere un data frame che memorizza le informazioni sull’ordine. In questa tabella, hai una colonna (ad esempio, the order colonna) che contiene elenchi di elementi, come mostrato di seguito:

order_data = {
'customer': ('John', 'Zoe', 'Mike'),
'order': (('Shoes', 'Pants', 'Caps'), ('Jackets', 'Shorts'), ('Ties', 'Hoodies'))
}
order_df = pd.DataFrame(order_data)
order_df

L’operazione necessaria è suddividere ciascuna voce dell’elenco in una riga separata per l’ulteriore elaborazione dei dati. Senza usare explodeuna soluzione ingenua potrebbe essere la seguente. Iteriamo semplicemente le righe originali…

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *