Modellazione dei dati per ingegneri dei dati | di 💡Mike Shakhomirov | Dicembre 2023 | Intelligenza-Artificiale

Indice contenuti

La guida definitiva per i principianti

fotografato da Sebastiano Svenson SU Unsplash

La modellazione dei dati è una parte essenziale dell’ingegneria dei dati. In questa storia vorrei parlare di diversi modelli di dati, del ruolo di SQL nella trasformazione dei dati e del processo di arricchimento dei dati. SQL è un potente strumento che aiuta a manipolare i dati. Con le pipeline di trasformazione dei dati possiamo trasformare e arricchire i dati caricati nella nostra piattaforma dati. Discuteremo vari metodi di manipolazione dei dati, pianificazione e aggiornamenti incrementali delle tabelle. Per rendere efficiente questo processo, vorremmo prima conoscere alcune cose essenziali sulla modellazione dei dati.

Cos’è la modellazione dei dati?

UN modello di dati mira a organizzare elementi dei tuoi dati e standardizzare il modo in cui gli elementi dei dati si relazionano tra loro.

Modelli di dati garantire la qualità dei dati, le configurazioni semantiche e la coerenza nelle convenzioni di denominazione. Aiuta a progettare il database concettualmente e creare connessioni logiche tra elementi di dati, ad esempio chiavi primarie ed esterne, tabelle, ecc.

Buono e approfondito progettazione del modello di dati è fondamentale se hai bisogno della trasformazione dei dati più affidabile ed economica per la tua piattaforma dati. Garantisce che i dati vengano elaborati senza ritardi e passaggi inutili.

Le aziende utilizzano una procedura nota come modellazione dimensionale dei dati per elaborare i dati. Fonte — Produzione — Analitica La suddivisione dei livelli tra schemi (set di dati) consente un’efficace governance dei dati e garantisce che i nostri dati siano pronti per la business intelligence e l’apprendimento automatico.

Tutte le informazioni misurabili vengono archiviate in tabelle dei fatticioè transazioni, sessioni, richieste, ecc.

Chiavi esterne vengono utilizzati nelle tabelle dei fatti e sono collegati alle tabelle delle dimensioni. Tabelle dimensionali avere dati descrittivi collegati alla tabella dei fatti, ad es marca, tipo/codice prodotto, paese, ecc.

Dimensioni e fatti in base ai requisiti aziendali vengono collegati a Schema.

I due tipi di schema più popolari sono Stella e fiocco di neve. Per non dire che queste sono le domande più frequenti durante i colloqui di lavoro di data engineering (1).

Fonte: towardsdatascience.com