ETL vs ELT vs ETL in streaming

 | Intelligenza-Artificiale

Esplorare paradigmi di progettazione batch e in tempo reale per l’elaborazione dei dati

fotografato da Confronta Fibra SU Unsplash

Extract, Transform, Load (ETL) ed Extract, Load, Transform (ELT) sono due concetti fondamentali nel contesto dell’elaborazione dei dati, utilizzati per descrivere i paradigmi di progettazione dell’inserimento e della trasformazione dei dati. Sebbene questi termini siano spesso usati in modo intercambiabile, si riferiscono a concetti leggermente diversi e sono applicabili a casi d’uso diversi che impongono anche progettazioni diverse.

In questo articolo esploreremo le differenze e le somiglianze tra ETL ed ELT e discuteremo in che modo il panorama del cloud computing e dell’ingegneria dei dati ha influenzato i modelli di progettazione dell’elaborazione dei dati. Inoltre, delineeremo i principali vantaggi e svantaggi che entrambi hanno da offrire nei moderni team di dati. Infine, discuteremo dello Streaming ETL, un modello emergente di elaborazione dei dati che mira a risolvere vari svantaggi degli approcci batch più tradizionali.

L’inserimento e la persistenza dei dati da origini esterne in un sistema di destinazione prevede tre passaggi distinti.

Estratto
La fase “Estrai” coinvolge tutti i processi necessari per estrarre i dati da un sistema di origine. Tali fonti includono un’interfaccia di programmazione dell’applicazione (API), un sistema di database o un file e dispositivi Internet of Things (IoT), mentre i dati possono essere in qualsiasi forma; strutturato, semistrutturato o non strutturato. I dati estratti durante questa fase vengono solitamente definiti “dati grezzi”.

Trasformare
Durante la fase “Trasformazione”, la pipeline applica trasformazioni sui dati grezzi per raggiungere un determinato obiettivo. Questo obiettivo è solitamente correlato a requisiti aziendali o tecnici. Alcune trasformazioni comunemente applicate includono la modifica dei dati (ad esempio mapping United States A US), selezione di record o attributi, unione ad altre origini dati o persino convalide di dati.

Applicazione della trasformazione sui dati grezzi per raggiungere un determinato obiettivo come parte della fase “Trasformazione” nelle pipeline ETL/ELT — Fonte: Autore

Carico
Durante la fase di “caricamento”, i dati (grezzi o trasformati) vengono caricati in un sistema di destinazione. Solitamente la destinazione è un sistema OLAP (ovvero un Data Warehouse o…

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *