In questa storia vorrei sollevare una discussione su come trasformiamo i dati. Che si tratti di un database, di un data warehouse o di una soluzione di reporting, eseguiamo trasformazioni di dati basate su modelli di dati, ma come li organizziamo? Vorrei parlare dei moderni strumenti di trasformazione dei dati che utilizzi. Toccheremo alcune sfumature dell’approccio modulare, della pianificazione e dei test di trasformazione dei dati. Alla fine di questo articolo, fornirò un’applicazione di esempio per eseguire attivitĂ di modellazione dei dati con derivazione dei dati e funzionalitĂ di autodocumentazione. Sono molto curioso di sapere cosa ne pensi.
Ho assistito a dozzine di vari modi per eseguire trasformazioni di dati. Nel corso dei miei oltre quindici anni di carriera nel campo dei big data e dell’analisi, ho creato pipeline di dati con diversi modelli di progettazione e sono sicuro che ce ne siano altri. Ecco perchĂ© mi piace così tanto il mondo della tecnologia. La moltitudine di possibilitĂ che offre è semplicemente sorprendente.
Quale sistema operativo usi per il tuo data warehouse?
Moderni strumenti di trasformazione dei dati
I moderni strumenti di trasformazione dei dati, noti anche come strumenti di modellazione dei dati o sistemi operativi di data warehouse (DWH), sono stati progettati per semplificare le attivitĂ di manipolazione dei dati SQL per creare set di dati, visualizzazioni e tabelle. Spesso utilizzano un dialetto simile a SQL per eseguire qualsiasi possibile definizione di dati (DDL) e manipolazione (DML) di cui potremmo aver bisogno, inclusi test di trasformazione dei dati e creazione di set di dati personalizzati in modalitĂ di sviluppo.
L’abbondanza di soluzioni Data Warehouse ANSI-SQL sul mercato rende questi strumenti estremamente utili. Ad esempio, considera questo elenco di adattatori dbt di seguito. Tutti i leader di mercato sono presenti lì.
DBT sta per strumento di creazione del database ed è essenzialmente un’applicazione di pianificazione che può essere eseguita localmente o sul server per eseguire attivitĂ di trasformazione dei dati. Ad esempio, considera questo semplice modello di seguito. Crea una vista nel nostro database e possiamo materializzarla diciamo ogni 5 minuti per preservare i dati per l’analisi. Nella parte superiore del file abbiamo…
Fonte: towardsdatascience.com