La durabilità dei dati nella progettazione della pipeline di dati è un punto critico ben noto nello spazio dell'ingegneria dei dati. È risaputo che i problemi di disponibilità e qualità dei dati possono portare a un aumento significativo del tempo dedicato ad attività senza valore aggiunto. In questa storia vorrei parlare dei modelli di progettazione dell'ingegneria dei dati per le pipeline di dati per garantire che i dati siano sempre presenti. Parleremo di tecniche che potrebbero aiutarci a costruire un processo di trasformazione dei dati sostenibile in cui i dati vengono sempre consegnati in tempo e la nostra pipeline di dati può essere descritta come robusta, durevole e forse anche auto-aggiustabile.
Se una pipeline di dati fallisce, molto probabilmente i dipendenti dovranno eseguire una serie di attività manuali tra cui l'acquisizione, l'aggregazione e l'elaborazione dei dati non necessari per ottenere il risultato desiderato.
Durabilità dei dati è un noto fattore di rischio nell’ingegneria dei dati. Secondo me è l’argomento meno discusso online al momento. Tuttavia, semplicemente perché non vedi il problema non significa che non esista. Gli ingegneri dei dati potrebbero non parlarne spesso. Il problema, tuttavia, esiste, seminando paura tra i professionisti dei dati e trasformando la progettazione della pipeline di dati in una vera sfida.
I problemi relativi alla disponibilità e alla qualità dei dati potrebbero portare a ulteriori ritardi nella consegna dei dati e ad altri errori di reporting. Secondo il rapporto McKinsey, il tempo impiegato dai dipendenti in attività che non aggiungono valore può aumentare drasticamente a causa di questi fattori:
Ciò include in genere indagini sui dati non richieste, tra cui l'acquisizione di dati aggiuntivi, la pulizia dei dati, la riconciliazione e l'aggregazione che comportano molte attività manuali.
Queste attività manuali sono assolutamente inutili
Quindi, come possiamo costruire condutture robuste, durevoli e autofissanti?
Cos'è una pipeline di dati?
Esiste una pipeline di dati ogni volta che c'è elaborazione di dati tra i punti A e B. Una può essere considerata come la sorgente e l'altra come la destinazione:
Fonte: towardsdatascience.com