Delineare strategie e architetture di soluzioni per caricare in modo incrementale i dati da varie origini dati.
L’era dei big data richiede strategie per gestire i dati in modo efficiente ed economicamente vantaggioso. L'inserimento incrementale dei dati diventa la soluzione ideale quando si lavora con origini dati diverse e critiche che generano dati ad alta velocità e bassa latenza.
Dopo aver lavorato come ingegnere e analista di dati lavorando sull'integrazione di molte origini dati in piattaforme dati aziendali, sono riuscito a incontrare una complessità dopo l'altra quando provavo a inserire e caricare in modo incrementale i dati nei data Lake e nei database di destinazione. La complessità risplende quando i dati sono costituiti da frammenti che giacciono nella polvere e negli angoli dei cari vecchi sistemi legacy. Scavando attraverso questi sistemi per trovare le interfacce dorate, i timestamp e gli identificatori per consentire, si spera, un'integrazione continua e incrementale.
Questo è uno scenario comune in cui ingegneri e analisti si trovano ad affrontare quando sono necessarie nuove origini dati per casi d'uso analitici. Gestire un'implementazione fluida dell'inserimento dei dati è un mestiere che molti ingegneri e analisti mirano a perfezionare. Ciò a volte è inverosimile e, a seconda dei sistemi di origine e dei dati che forniscono, le cose possono diventare confuse e complicate con soluzioni alternative e script qua e là per sistemare le cose.
In questa storia, descriverò una panoramica completa delle soluzioni per l'implementazione di strategie di inserimento incrementale dei dati. Prendendo in considerazione le caratteristiche dell'origine dati, il formato dei dati e le proprietà dei dati da acquisire. Le prossime sezioni si concentreranno sulle strategie per ottimizzare il caricamento incrementale dei dati evitando quindi record di dati duplicati, riducendo il trasferimento di dati ridondanti e diminuendo il carico sui sistemi di origine operativi. Discutiamo le implementazioni della soluzione di alto livello e ne spieghiamo i componenti con i flussi di dati previsti. Elenchiamo strategie incrementali in base alle origini dati, dai database all'archiviazione di file, e come affrontare le soluzioni per ciascuna. Immergiamoci.
Fonte: towardsdatascience.com