Extract, Transform, Load (ETL) ed Extract, Load, Transform (ELT) sono due concetti fondamentali nel contesto dell’elaborazione dei dati, utilizzati per descrivere i paradigmi di progettazione dell’inserimento e della trasformazione dei dati. Sebbene questi termini siano spesso usati in modo intercambiabile, si riferiscono a concetti leggermente diversi e sono applicabili a casi d’uso diversi che impongono anche progettazioni diverse.
In questo articolo esploreremo le differenze e le somiglianze tra ETL ed ELT e discuteremo in che modo il panorama del cloud computing e dell’ingegneria dei dati ha influenzato i modelli di progettazione dell’elaborazione dei dati. Inoltre, delineeremo i principali vantaggi e svantaggi che entrambi hanno da offrire nei moderni team di dati. Infine, discuteremo dello Streaming ETL, un modello emergente di elaborazione dei dati che mira a risolvere vari svantaggi degli approcci batch più tradizionali.
L’inserimento e la persistenza dei dati da origini esterne in un sistema di destinazione prevede tre passaggi distinti.
Estratto
La fase “Estrai” coinvolge tutti i processi necessari per estrarre i dati da un sistema di origine. Tali fonti includono un’interfaccia di programmazione dell’applicazione (API), un sistema di database o un file e dispositivi Internet of Things (IoT), mentre i dati possono essere in qualsiasi forma; strutturato, semistrutturato o non strutturato. I dati estratti durante questa fase vengono solitamente definiti “dati grezzi”.
Trasformare
Durante la fase “Trasformazione”, la pipeline applica trasformazioni sui dati grezzi per raggiungere un determinato obiettivo. Questo obiettivo è solitamente correlato a requisiti aziendali o tecnici. Alcune trasformazioni comunemente applicate includono la modifica dei dati (ad esempio mapping United States
A US
), selezione di record o attributi, unione ad altre origini dati o persino convalide di dati.
Carico
Durante la fase di “caricamento”, i dati (grezzi o trasformati) vengono caricati in un sistema di destinazione. Solitamente la destinazione è un sistema OLAP (ovvero un Data Warehouse o…