Padronanza del backfilling: elevare la competenza nell’ingegneria dei dati |  di Naser Tamimi |  Novembre 2023

 | Intelligenza-Artificiale

INGEGNERIA DEI DATI

Una guida di riferimento per gli ingegneri dei dati che si avventurano nel labirinto del riempimento

fotografato da Towfiqu barbhuiya SU Unsplash

Immagina di avviare una nuova pipeline di dati e di ottenere dati da una fonte che non hai mai analizzato prima (ad esempio, estrarre informazioni da un’API o da una tabella hive esistente). Ora la tua missione è far sembrare che tu abbia raccolto questi dati molto tempo fa. Questo è un esempio di ciò che chiamiamo data backfilling nell’ingegneria dei dati.

Ma non si tratta solo di avviare una nuova pipeline o tabella di dati. Potresti avere una tabella che raccoglie dati da un po’ di tempo e all’improvviso devi modificarli (ad esempio a causa di una nuova definizione di metrica) o inserire più dati da una nuova origine dati. O forse c’è una strana lacuna nei tuoi dati e vuoi semplicemente colmarla. Tutte queste situazioni sono esempi di riempimento dei dati. Il filo conduttore è tornare “indietro” nel tempo e “riempire” la tabella con alcuni dati storici.

La figura seguente (Figura 1) mostra uno scenario di riempimento semplice. In questo caso, un lavoro quotidiano recupera i dati da due origini upstream (una per la piattaforma A e un’altra per la piattaforma B). Il set di dati è strutturato con la prima partizione “ds” e la seconda partizione (o sottopartizioni) che rappresenta le piattaforme. Sfortunatamente, i dati per il periodo dal 2023–10–03 al 2023–10–05 sono assenti a causa di alcuni problemi. Per colmare questa lacuna, è stata avviata un’operazione di riempimento (il lavoro di riempimento è iniziato l’8-10-2023).

Figura 1) Un semplice scenario di riempimento

Un breve avvertimento prima di procedere oltre: nell’ambito dell’ingegneria dei dati, normalmente incontriamo due scenari: “riempire” una tabella o “ripristinare” una tabella. Questi processi, pur condividendo alcune somiglianze, presentano alcune sottili differenze. Il backfill, come pratica, consiste nel popolare dati mancanti o incompleti in un set di dati. La sua applicazione è comunemente diretta all’aggiornamento dei dati storici o alla correzione delle lacune. Al contrario, la riformulazione di una tabella comporta effetti sostanziali…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *