Tecniche ETL avanzate per principianti | di 💡Mike Shakhomirov | Febbraio 2024 | Intelligenza-Artificiale

Su una scala da 1 a 10, quanto sono buone le tue capacità di acquisizione dei dati?

fotografato da Blake Connally SU Unsplash

L’acquisizione dei dati è un passaggio cruciale nell’ingegneria dei dati. Gli ingegneri dei dati caricano enormi quantità di dati in vari sistemi di database per ulteriori trasformazioni ed elaborazioni. Anche se abbiamo a che fare con quantità relativamente piccole di dati in fase di staging, abbiamo la fortuna di non rimanere a corto di memoria, lavorare su pipeline di dati di produzione con terabyte (o addirittura petabyte) di record spesso si trasforma in una vera sfida. Le soluzioni ETL esistenti offrono il caricamento automatizzato dei dati nel data warehouse di cui abbiamo bisogno e spesso dispongono di modelli di prezzo basati su righe. In questa storia, vorrei discutere su come creare una soluzione di caricamento dati su misura per le nostre pipeline per consentire un caricamento efficiente dei dati. Daremo uno sguardo più approfondito ai modelli comuni di progettazione dell’inserimento dei dati e ai modi tipici di organizzare il processo. Effettueremo il reverse engineering di alcune delle soluzioni ETL più popolari per vedere come i dati possono essere acquisiti senza interruzioni e perdite in modo efficiente. Fornirò esempi di caricamento dei dati utilizzando le librerie e gli strumenti Python disponibili gratuitamente sul mercato per riassumere i miei risultati.

Su una scala da 1 a 10 quanto sono buone le tue capacità di caricamento dati? –

Questa sarebbe una delle mie domande preferite durante le interviste di ingegneria dei dati. Continuo a cercare talenti che sappiano come costruire sistemi ETL su misura.

In effetti, essere in grado di creare un robusto sistema di caricamento dati in grado di elaborare i dati in modo efficiente, non fallisce, non consuma troppa memoria, può gestire vari formati di dati ed è ben scalabile: questo è ciò che, a mio avviso, contraddistingue un ingegnere di dati esperto . Con l’abbondanza di strumenti disponibili sul mercato per le attività ETL, siamo fortunati e non ne abbiamo davvero bisogno. Fino a quando l’azienda non decide di costruirlo internamente. Potrebbero esserci varie ragioni per questo e una di quelle ovvie è sicurezza e normative. Trattare con dati sensibili è sempre impegnativo e spesso si tratta di dati non devi lasciare determinate regioni e/o località geografiche. Un altro buon motivo per sviluppare internamente le competenze ETL è che nel lungo periodo ciò consente di risparmiare un sacco di soldi. Avere un ingegnere software tuttofare che abbia esperienza nella progettazione di piattaforme dati e conosca molti strumenti e framework ETL è sempre fantastico. Le aziende sono a caccia di questi talenti. IO…

Fonte: towardsdatascience.com