Il modo in cui pensiamo alle pipeline di dati sta cambiando | di Hugo Lu | Novembre 2023 | Intelligenza-Artificiale

Indice contenuti

L’obiettivo è rilasciare i dati in produzione in modo affidabile ed efficiente

Le pipeline di dati sono una serie di attività organizzate in a grafico aciclico diretto o “DAG”. Storicamente, questi vengono eseguiti su pacchetti di orchestrazione del flusso di lavoro open source come Flusso d’aria O Prefettoe richiedono iinfrastrutture gestiti da ingegneri dei dati o team della piattaforma. Queste pipeline di dati vengono in genere eseguite su a programmae consentire agli ingegneri dei dati di aggiornare i dati in luoghi come data warehouse o data lake.

Questo ora sta cambiando. C’è un grande cambiamento di mentalità accadendo. Con la maturazione del settore dell’ingegneria dei dati, la mentalità si sta spostando da una mentalità “spostare i dati al servizio dell’azienda a tutti i costi” a una mentalità di “affidabilità ed efficienza”/”ingegneria del software”.

Integrazione e distribuzione continua dei dati

Ho già scritto su come I team dati vengono spediti dati mentre i team software spediscono codice.

Questo è un processo chiamato “Continuous Data Integration and Delivery” ed è il processo di rilascio affidabile ed efficiente dei dati nella produzione. Ci sono sottili differenze con la definizione di “CI/CD” come utilizzato in Software Engineer, illustrato di seguito.

Nell’ingegneria del software, la consegna continua non è banale a causa dell’importanza di avere a replica quasi esatta affinché il codice funzioni in un ambiente di staging.

All’interno di Data Engineering, questo non è necessario perché lo è il bene che spediamo dati. Se c’è una tabella di dati, e noi Sapere che finché sono soddisfatte alcune condizioni, i dati È di qualità sufficiente per essere utilizzato, quindi sufficiente per essere “rilasciato” in produzione, per così dire.

Il processo di rilascio dei dati in produzione, l’analogo della consegna continua, è molto semplice, poiché si riferisce semplicemente alla copia o clonazione un set di dati.

Inoltre, a pilastro chiave dell’ingegneria dei dati è reagire a nuovi dati man mano che arriva o verificare se esistono nuovi dati. Non esiste un analogo di questo nell’ingegneria del software: le applicazioni software non hanno bisogno di…

Fonte: towardsdatascience.com