In questa storia vorrei parlare di libri e risorse di ingegneria dei dati che potrebbero interessare coloro che imparano l’ingegneria dei dati (DE). Mi sono reso conto che non ce ne sono molti sul mercato che spiegano l’ingegneria dei dati come concetto in modo olistico nel suo complesso. Alcuni di loro sono fantastici su come utilizzare particolari strumenti e architetture di piattaforme dati e alcuni di loro sono le mie letture preferite prima di andare a dormire: sorprendentemente facile addormentarsi durante la lettura e gloriosamente noiose. Alcuni sono ottimi per il processo decisionale strategico e altri potrebbero sembrare un po’ obsoleti ma comunque utili. Spero che lo troverai interessante.
Divulgazione: questo post può contenere link di affiliazione, il che significa che ricevo una commissione se decidi di effettuare un acquisto tramite i miei link, senza alcun costo per te.
Lavora con enormi set di dati per progettare modelli di dati e automatizzare pipeline di dati utilizzando Python
Paul Crickard, 2020
Questo è un ottimo libro per coloro che desiderano apprendere gli strumenti Apache open source per l’ingegneria dei dati. Copre tutti gli argomenti essenziali dell’ingegneria dei dati come la modellazione dei dati e offre numerosi esempi delle trasformazioni dei dati più comuni. Come menzionato nella descrizione del libro, si tratta di Python e della modellazione dei dati, quindi i lettori si concentreranno sulle tecniche ETL per estrarre, pulire e arricchire i set di dati utilizzando gli strumenti Python. Spiega in dettaglio Apache Kafka e Apache Spark, ma copre anche gli elementi essenziali per lavorare con i formati di file, la trasformazione e la pulizia dei dati. Il libro offre alcune viste davvero interessanti sulle distribuzioni di pipeline di dati e sul lavoro con gli ambienti di dati.
Una delle mie storie con tecniche ETL avanzate per completare questo libro:
di Joe Reis, Matt Housley
Rilasciato a giugno 2022
Editore: O’Reilly Media, Inc.
Fonte: towardsdatascience.com