Crea relazioni molti-a-uno tra colonne in una tabella sintetica con le UDF PySpark | di Matt Collins | Dicembre 2023 | Intelligenza-Artificiale

Sfrutta alcune semplici equazioni per generare colonne correlate nelle tabelle di test.

Recentemente ho giocato con Databricks Labs Data Generator per creare set di dati completamente sintetici da zero. Come parte di questo, ho esaminato la creazione di dati di vendita su diversi negozi, dipendenti e clienti. Pertanto, volevo creare relazioni tra le colonne che stavo popolando artificialmente, ad esempio mappando dipendenti e clienti in un determinato negozio.

Utilizzando le UDF PySpark e un po’ di logica, possiamo generare colonne correlate che seguono una relazione molti-a-uno. Con un po’ di magia, siamo anche in grado di estendere la logica per apportare qualche variazione a questa mappatura, come un cliente che generalmente acquista dal negozio locale ma a volte da un negozio diverso.

Nota: puoi saltare questa sezione se non è richiesta!

Per prima cosa, dobbiamo creare un DataFrame con la nostra prima colonna generata casualmente. Nel nostro caso, inizieremo con il negozio, poiché logicamente avremo “molti dipendenti per negozio” e “molti clienti che fanno acquisti ripetutamente in un negozio”.

Tenendo presente un modello di dati con schema a stella, inizieremo con la nostra tabella Sales Fact, una tabella transazionale che conterrà valori chiave per ID vendita, ID negozio, ID dipendente e ID cliente, l’importo della vendita insieme ad alcune date/ora dati per l’acquisto. Possiamo quindi compilare le specifiche relative a Negozio, Dipendente e Cliente nelle tabelle delle dimensioni più avanti nella riga.

Inizieremo in piccolo: andrà bene una tabella con 1000 vendite. Ora dobbiamo decidere come suddividere queste vendite tra negozi, dipendenti e clienti. Suggeriamo quanto segue:

# Negozi = 20
# Dipendenti = 100
# Clienti = 700

Possiamo anche dire che le vendite verranno registrate nel corso dell’ultimo mese:

Data della prima vendita = 2023–11–01
Data dell’ultima vendita = 2023–11–30

L’ID vendita deve essere una colonna univoca in modo da poter generare una colonna ID per questo. Ora dobbiamo distribuire le 1000 vendite tra i 20 negozi. Per semplicità supponiamo che questo sia casuale.

Utilizzando Databricks Lab Generator possiamo farlo con il seguente codice: