La modellazione dei dati è una parte essenziale dell’ingegneria dei dati. In questa storia vorrei parlare di diversi modelli di dati, del ruolo di SQL nella trasformazione dei dati e del processo di arricchimento dei dati. SQL è un potente strumento che aiuta a manipolare i dati. Con le pipeline di trasformazione dei dati possiamo trasformare e arricchire i dati caricati nella nostra piattaforma dati. Discuteremo vari metodi di manipolazione dei dati, pianificazione e aggiornamenti incrementali delle tabelle. Per rendere efficiente questo processo, vorremmo prima conoscere alcune cose essenziali sulla modellazione dei dati.
Cos’è la modellazione dei dati?
UN modello di dati mira a organizzare elementi dei tuoi dati e standardizzare il modo in cui gli elementi dei dati si relazionano tra loro.
Modelli di dati garantire la qualità dei dati, le configurazioni semantiche e la coerenza nelle convenzioni di denominazione. Aiuta a progettare il database concettualmente e creare connessioni logiche tra elementi di dati, ad esempio chiavi primarie ed esterne, tabelle, ecc.
Buono e approfondito progettazione del modello di dati è fondamentale se hai bisogno della trasformazione dei dati più affidabile ed economica per la tua piattaforma dati. Garantisce che i dati vengano elaborati senza ritardi e passaggi inutili.
Le aziende utilizzano una procedura nota come modellazione dimensionale dei dati per elaborare i dati. Fonte — Produzione — Analitica La suddivisione dei livelli tra schemi (set di dati) consente un’efficace governance dei dati e garantisce che i nostri dati siano pronti per la business intelligence e l’apprendimento automatico.
Tutte le informazioni misurabili vengono archiviate in tabelle dei fatticioè transazioni, sessioni, richieste, ecc.
Chiavi esterne vengono utilizzati nelle tabelle dei fatti e sono collegati alle tabelle delle dimensioni. Tabelle dimensionali avere dati descrittivi collegati alla tabella dei fatti, ad es marca, tipo/codice prodotto, paese, ecc.
Dimensioni e fatti in base ai requisiti aziendali vengono collegati a Schema.
I due tipi di schema più popolari sono Stella e fiocco di neve. Per non dire che queste sono le domande più frequenti durante i colloqui di lavoro di data engineering (1).
Fonte: towardsdatascience.com