Recentemente ho scritto un modello di dati per rappresentare una nuova parte della nostra attività. I dati richiedono molte domande da porre, poiché sono piuttosto difficili da comprendere in modo intuitivo.
Il modello di dati richiede che io unisca set di dati simili, ma diversi, provenienti da due fonti diverse in un unico set di dati. Ogni volta che unisci due set di dati, è fondamentale pensare alla chiave univoca che fungerà quindi da chiave primaria di questo nuovo set di dati.
Sfortunatamente, non puoi presumere che la chiave primaria in ciascun set di dati venga trasferita in quello risultante. Questo perché queste chiavi, se incrementano numeri interi, tenderanno a essere duplicate da un set di dati all’altro.
Tuttavia, puoi creare una nuova chiave.
In questo articolo discuteremo due opzioni per creare una chiave univoca in un modello di dati: una chiave surrogata o una chiave composita. Quali sono le differenze tra questi? Quando dovresti usare l’uno rispetto all’altro?
Le chiavi composite sono composte da più campi identificativi, insieme i campi che la compongono sono univoci. Sono creati da valori del mondo reale e il cui significato può essere compreso quando letti
Le chiavi surrogate vengono generate al solo scopo di essere una chiave primaria e non contengono alcun significato reale. Essi sono in genere valori hash che rendono il recupero dei dati facile e veloce.
Le chiavi composite sono ideali quando desideri comunque mantenere il valore dei tuoi dati. Sebbene le chiavi composte siano una combinazione univoca di campi, puoi generare un nuovo campo basato su questi valori per semplificare la ricerca univoca dei record.
Questo è ciò che consiglio quando si utilizza una chiave composita in un modello di dati. Esamineremo un modo semplice per utilizzare SQL o dbt per generare una chiave composita all’interno di uno qualsiasi dei tuoi modelli di dati.
Le chiavi surrogate sono ideali quando non hai bisogno di mantenere il valore dei tuoi dati e desideri un modo rapido ed efficiente per recuperarli. Questi vengono spesso utilizzati quando i set di dati sono univoci su 3 o…
Fonte: towardsdatascience.com