
In questa storia cercherò di far luce sui vantaggi delle moderne soluzioni di data warehouse (DWH) rispetto ad altri tipi di architettura di piattaforme dati. Oserei dire che DWH è la piattaforma più popolare tra gli ingegneri dei dati al momento. Offre vantaggi inestimabili rispetto ad altri tipi di soluzioni, ma presenta anche alcune limitazioni ben note. Vuoi imparare l’ingegneria dei dati? Questa storia è un buon punto di partenza perché spiega l’essenza dell’ingegneria dei dati: la soluzione DWH al centro del diagramma dell’architettura. Vedremo come i dati possono essere assorbiti e trasformati nei diversi DWH disponibili sul mercato.
Vorrei aprire la discussione anche con utenti esperti. Sarebbe bello conoscere la tua opinione e vedere cosa hai da dire su questo argomento.
Caratteristiche principali di un data warehouse
Un motore SQL serverless e distribuito (BigQuery, Snowflake, Redshift, Microsoft Azure Synapse, Teradata.) è ciò che chiamiamo un data warehouse moderno (DWH). Si tratta di un’architettura dati SQL-first (1) in cui i dati vengono archiviati in un data warehouse e possiamo sfruttare tutti i vantaggi dell’utilizzo di set di dati con schema a stella denormalizzato (2) perché la maggior parte dei data warehouse moderni sono distribuiti e scalabili bene, il che significa che non è necessario preoccuparsi delle chiavi e degli indici della tabella. Si adatta bene alle query analitiche ad hoc sui Big Data.
La maggior parte delle moderne soluzioni di data warehouse possono elaborare dati strutturati e non strutturati e sono molto convenienti per gli analisti di dati con buone competenze SQL.
I moderni data warehouse si integrano facilmente con soluzioni di business intelligence come Looker, Tableau, Sisense e Mode, che utilizzano ANSI-SQL per elaborare i dati. Nel diagramma seguente ho provato a mappare un percorso comune di trasformazione dei dati e gli strumenti utilizzati (non un elenco completo ovviamente). Possiamo vederlo…
Fonte: towardsdatascience.com