Panda per ingegneri dei dati. Tecniche avanzate per elaborare e caricare… | di 💡Mike Shakhomirov | Febbraio 2024 | Intelligenza-Artificiale

Indice contenuti

Tecniche avanzate per elaborare e caricare i dati in modo efficiente

Immagine generata dall’intelligenza artificiale utilizzando Kandinsky

In questa storia vorrei parlare delle cose che mi piacciono dei Panda e che utilizzo spesso nelle applicazioni ETL che scrivo per elaborare i dati. Toccheremo l’analisi esplorativa dei dati, la pulizia dei dati e le trasformazioni dei frame di dati. Dimostrerò alcune delle mie tecniche preferite per ottimizzare l’utilizzo della memoria ed elaborare grandi quantità di dati in modo efficiente utilizzando questa libreria. Lavorare con set di dati relativamente piccoli in Panda è raramente un problema. Gestisce i dati nei frame di dati con facilità e fornisce un set di comandi molto conveniente per elaborarli. Quando si tratta di trasformazioni di dati su frame di dati molto più grandi (1 Gb e più), normalmente utilizzerei Spark e cluster di elaborazione distribuiti. Può gestire terabyte e petabyte di dati, ma probabilmente costerà anche un sacco di soldi per far funzionare tutto quell’hardware. Ecco perché Panda potrebbe essere una scelta migliore quando dobbiamo gestire set di dati di medie dimensioni in ambienti con risorse di memoria limitate.

Generatori di panda e Python

In una delle mie storie precedenti ho scritto su come elaborare i dati in modo efficiente utilizzando i generatori in Python (1).

È un semplice trucco per ottimizzare l’utilizzo della memoria. Immagina di avere un enorme set di dati da qualche parte nella memoria esterna. Può essere un database o semplicemente un semplice file CSV di grandi dimensioni. Immaginiamo di dover elaborare questo file da 2-3 TB e applicare alcune trasformazioni a ciascuna riga di dati in questo file. Supponiamo di avere un servizio che eseguirà questa attività e che abbia solo 32 Gb di memoria. Questo ci limiterà nel caricamento dei dati e non potremo caricare l’intero file in memoria per dividerlo riga per riga applicando il semplice Python split(‘\n’) operatore. La soluzione sarebbe elaborarlo riga per riga e yield ogni volta liberando la memoria per quella successiva. Questo può aiutarci a creare un flusso costante di dati ETL verso la destinazione finale della nostra pipeline di dati. Può essere qualsiasi cosa: un bucket di archiviazione nel cloud, un altro database, una soluzione di data warehouse (DWH), un argomento di streaming o altro…

Fonte: towardsdatascience.com

Categorie

Tecniche avanzate per elaborare e caricare i dati in modo efficiente

Generatori di panda e Python

Lascia un commento Annulla risposta

Articoli Correlati

Ultimi post

L'intelligenza artificiale raggiunge lo standard della medaglia d'argento risolvendo i problemi delle Olimpiadi Matematiche Internazionali | Intelligenza-Artificiale

Mistral Large 2: il Davide contro i Golia delle Big Tech | Intelligenza-Artificiale

Le 5 migliori directory di strumenti di intelligenza artificiale: scopri e mostra le innovazioni dell'intelligenza artificiale | Intelligenza-Artificiale

WAF basati sull'intelligenza artificiale vs firewall tradizionali: proteggere le applicazioni web | Intelligenza-Artificiale

Informazioni

Seguici

Tecniche avanzate per elaborare e caricare i dati in modo efficiente

Generatori di panda e Python

Lascia un commento Annulla risposta

Articoli Correlati