COME ingegneri dei dati, ogni giorno affrontiamo sfide uniche. Ma se c’è un compito arduo che risalta, è sicuramente il riempimento. Un backfill difettoso comporta tempi di elaborazione eccessivi, contaminazione dei dati e fatture cloud ingenti. E sì, significa anche che hai bisogno di un altro lavoro di riempimento per risolverlo.
Completare con successo il primo recupero di dati è un rito di passaggio dell’ingegneria dei dati. — Dagster
L’attività di recupero richiede una serie di competenze di ingegneria dei dati per essere realizzata in modo efficace, come la conoscenza del dominio per convalidare i risultati, competenze sugli strumenti per eseguire lavori di recupero e una solida conoscenza del database per ottimizzare il processo. Quando tutti questi elementi sono intrecciati in un’unica attività, le cose possono andare storte.
In questo articolo esploreremo il concetto di data backfill, la sua necessità e i metodi di implementazione efficienti. Che tu sia un principiante nel riempimento o qualcuno che spesso si sente in preda al panico per tali compiti, questo articolo calmerà la tua mente e ti aiuterà a ritrovare la fiducia.
Cos’è il riempimento?
Il backfill è il processo di riempimento dei dati mancanti del passato su una nuova tabella che prima non esisteva o di sostituzione dei vecchi dati con nuovi record. In genere non è un lavoro ricorrente ed è necessario solo per le pipeline di dati che aggiornano la tabella in modo incrementale.
Ad esempio, una tabella è partizionata date
colonna. Un normale lavoro giornaliero aggiorna solo le ultime 2 partizioni. Al contrario, un processo di recupero può aggiornare le partizioni fino a quella iniziale nella tabella. Se il lavoro normale aggiorna ogni volta l’intera tabella, un lavoro di recupero diventa superfluo poiché i dati cronologici verranno naturalmente aggiornati tramite il lavoro normale.
Quindi, quando è necessario effettuare il riempimento?
In generale, ci sono alcuni scenari comuni. Vediamo se li trovi familiari.
- Crea una nuova tabella e desideri inserire i dati storici mancanti
Fonte: towardsdatascience.com