Come convertire i dati grezzi in un formato più utilizzabile e strutturato.

(immagine creata dall’autore con Midjourney)

Quando impariamo un nuovo strumento, di solito esaminiamo i documenti, guardiamo tutorial, leggiamo articoli e risolviamo esempi. Questo è un approccio sufficientemente buono e ti aiuterà ad apprendere lo strumento in una certa misura.

Tuttavia, quando iniziamo a utilizzare lo strumento in contesti di vita reale o per risolvere problemi reali, dobbiamo andare un po’ oltre quanto trattato nella maggior parte dei tutorial.

In questo articolo spiegherò passo dopo passo come ho utilizzato Python per gestire due diverse attività di pulizia e preelaborazione dei dati nel mio lavoro. Per ogni attività ti mostrerò i dati grezzi e il formato desiderato. Quindi, spiegherò il codice per ottenere i dati in quel formato.

Approfondiremo le strutture dati integrate di Python e la libreria Panda, quindi dovresti aspettarti di imparare alcune cose interessanti sulla gestione dei dati con Python.

Ho un DataFrame con un elenco di problemi e i relativi riepiloghi. Non sto utilizzando né condividendo i dati originali che ho qui. Invece, ho generato dati fittizi nello stesso formato di quello originale. Se vuoi proseguire eseguendo il codice, scarica il file “mock_issues.csv” dal mio set di dati deposito.

Ciò che faremo in termini di gestione dei dati dipende dal formato piuttosto che dal contenuto, quindi le funzioni e i metodi che impareremo in questo articolo sono applicabili ai dati originali. In effetti, il processo è esattamente lo stesso di quello che ho fatto nel mio lavoro.

Considera di avere un DataFrame di più righe con le seguenti colonne:

(immagine dell’autore)

Ogni riga nella colonna dei problemi non elaborati contiene un elenco di problemi nel seguente formato:

"""
"(1-The find_duplicates method is inefficiently using the data structures leading to high time complexity.,
2- Built-in data structures are not used efficiently in the generate_meta method.,
3- In the ExerciseGenerator class, excessive use of global variables may slow down the program.,
4- The get_all_contributors_for_repo method is not using built-in…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *