Costruire pipeline di dati durevoli. Tecniche di ingegneria dei dati per robusti… | di ðŸ'¡Mike Shakhomirov | Marzo 2024 | Intelligenza-Artificiale

Indice contenuti

Tecniche di ingegneria dei dati per un ETL robusto e sostenibile

12 minuti di lettura

1 ora fa

Immagine generata dall'intelligenza artificiale utilizzando Kandinsky

La durabilità dei dati nella progettazione della pipeline di dati è un punto critico ben noto nello spazio dell'ingegneria dei dati. È risaputo che i problemi di disponibilità e qualità dei dati possono portare a un aumento significativo del tempo dedicato ad attività senza valore aggiunto. In questa storia vorrei parlare dei modelli di progettazione dell'ingegneria dei dati per le pipeline di dati per garantire che i dati siano sempre presenti. Parleremo di tecniche che potrebbero aiutarci a costruire un processo di trasformazione dei dati sostenibile in cui i dati vengono sempre consegnati in tempo e la nostra pipeline di dati può essere descritta come robusta, durevole e forse anche auto-aggiustabile.

Se una pipeline di dati fallisce, molto probabilmente i dipendenti dovranno eseguire una serie di attività manuali tra cui l'acquisizione, l'aggregazione e l'elaborazione dei dati non necessari per ottenere il risultato desiderato.

Durabilità dei dati è un noto fattore di rischio nell’ingegneria dei dati. Secondo me è l’argomento meno discusso online al momento. Tuttavia, semplicemente perché non vedi il problema non significa che non esista. Gli ingegneri dei dati potrebbero non parlarne spesso. Il problema, tuttavia, esiste, seminando paura tra i professionisti dei dati e trasformando la progettazione della pipeline di dati in una vera sfida.

I problemi relativi alla disponibilità e alla qualità dei dati potrebbero portare a ulteriori ritardi nella consegna dei dati e ad altri errori di reporting. Secondo il rapporto McKinsey, il tempo impiegato dai dipendenti in attività che non aggiungono valore può aumentare drasticamente a causa di questi fattori:

Tempo impiegato dai dipendenti in attività senza valore aggiunto a causa della qualità dei dati. Fonte: Sondaggio McKinsey Global Data Transformation, 2019

Ciò include in genere indagini sui dati non richieste, tra cui l'acquisizione di dati aggiuntivi, la pulizia dei dati, la riconciliazione e l'aggregazione che comportano molte attività manuali.

Queste attività manuali sono assolutamente inutili

Quindi, come possiamo costruire condutture robuste, durevoli e autofissanti?

Cos'è una pipeline di dati?

Esiste una pipeline di dati ogni volta che c'è elaborazione di dati tra i punti A e B. Una può essere considerata come la sorgente e l'altra come la destinazione:

Fonte: towardsdatascience.com