Di recente avevo bisogno di uno strumento di data warehouse per il mio nuovo progetto dati. Questa storia parla di come l’ho costruito da zero e di come ho organizzato tutto al suo interno. Progettare una piattaforma dati non è un compito banale e spesso le moderne soluzioni di data warehouse sono al centro della sua architettura. Fornisce robuste funzionalitĂ di governance dei dati, query di dati semplificate utilizzando ANSI SQL e funzionalitĂ avanzate di modellazione dei dati. Organizzare tutto all’interno, ad esempio ambienti dati, test, convenzioni di denominazione, database, schemi e tabelle, potrebbe essere un compito impegnativo a causa dell’elevato numero di origini dati e della complessitĂ delle trasformazioni richieste. Questa storia potrebbe essere utile per gli utenti principianti e di livello intermedio che desiderano apprendere tecniche avanzate di data warehousing. Vorrei discutere con i professionisti esperti dei dati cosa pensano della progettazione del data warehouse e come organizzerebbero normalmente tutto al suo interno.
Progettare una piattaforma dati
In qualitĂ di ingegnere dei dati, progetto pipeline di dati ogni giorno. Questo è ciò in cui consiste la moderna piattaforma dati e deve essere economicamente vantaggiosa, scalabile e di facile manutenzione a lungo termine. La progettazione di pipeline per applicazioni ad uso intensivo di dati è sempre impegnativa e moderna magazzino dati (DWH) mira a semplificare e migliorare questo processo fornendo un facile accesso ai dati, migliori capacitĂ di governance dei dati e trasformazioni di dati di facile manutenzione necessarie per l’analisi e la business intelligence.
Ha sempre senso utilizzare un DWH nella nostra piattaforma dati quando gli utenti desiderano accedere ed esplorare i dati da soli e esiste un requisito aziendale per la reportistica. I moderni data warehouse semplificano l’accesso e la governance dei dati e credo che questa sia parte integrante di qualsiasi piattaforma dati moderna. Ho giĂ sollevato questa discussione qui (1):
Ho scelto di utilizzare il data Lake in modo permanente zona di atterraggio e per organizzare i dati prima di caricarli effettivamente nel data warehouse. I fornitori di servizi cloud offrono archiviazione cloud…
Fonte: towardsdatascience.com