INGEGNERIA DEI DATI
Una guida di riferimento per gli ingegneri dei dati che si avventurano nel labirinto del riempimento
Immagina di avviare una nuova pipeline di dati e di ottenere dati da una fonte che non hai mai analizzato prima (ad esempio, estrarre informazioni da un’API o da una tabella hive esistente). Ora la tua missione è far sembrare che tu abbia raccolto questi dati molto tempo fa. Questo è un esempio di ciò che chiamiamo data backfilling nell’ingegneria dei dati.
Ma non si tratta solo di avviare una nuova pipeline o tabella di dati. Potresti avere una tabella che raccoglie dati da un po’ di tempo e all’improvviso devi modificarli (ad esempio a causa di una nuova definizione di metrica) o inserire più dati da una nuova origine dati. O forse c’è una strana lacuna nei tuoi dati e vuoi semplicemente colmarla. Tutte queste situazioni sono esempi di riempimento dei dati. Il filo conduttore è tornare “indietro” nel tempo e “riempire” la tabella con alcuni dati storici.
La figura seguente (Figura 1) mostra uno scenario di riempimento semplice. In questo caso, un lavoro quotidiano recupera i dati da due origini upstream (una per la piattaforma A e un’altra per la piattaforma B). Il set di dati è strutturato con la prima partizione “ds” e la seconda partizione (o sottopartizioni) che rappresenta le piattaforme. Sfortunatamente, i dati per il periodo dal 2023–10–03 al 2023–10–05 sono assenti a causa di alcuni problemi. Per colmare questa lacuna, è stata avviata un’operazione di riempimento (il lavoro di riempimento è iniziato l’8-10-2023).
Un breve avvertimento prima di procedere oltre: nell’ambito dell’ingegneria dei dati, normalmente incontriamo due scenari: “riempire” una tabella o “ripristinare” una tabella. Questi processi, pur condividendo alcune somiglianze, presentano alcune sottili differenze. Il backfill, come pratica, consiste nel popolare dati mancanti o incompleti in un set di dati. La sua applicazione è comunemente diretta all’aggiornamento dei dati storici o alla correzione delle lacune. Al contrario, la riformulazione di una tabella comporta effetti sostanziali…
Fonte: towardsdatascience.com