Trasformazione dei dati del database per ingegneri di dati |  di đź’ˇMike Shakhomirov |  Febbraio 2024

 | Intelligenza-Artificiale

Tecniche avanzate per principianti

Immagine generata dall’intelligenza artificiale usando Kandinsky

In questa storia vorrei sollevare una discussione su come trasformiamo i dati. Che si tratti di un database, di un data warehouse o di una soluzione di reporting, eseguiamo trasformazioni di dati basate su modelli di dati, ma come li organizziamo? Vorrei parlare dei moderni strumenti di trasformazione dei dati che utilizzi. Toccheremo alcune sfumature dell’approccio modulare, della pianificazione e dei test di trasformazione dei dati. Alla fine di questo articolo, fornirò un’applicazione di esempio per eseguire attivitĂ  di modellazione dei dati con derivazione dei dati e funzionalitĂ  di autodocumentazione. Sono molto curioso di sapere cosa ne pensi.

Ho assistito a dozzine di vari modi per eseguire trasformazioni di dati. Nel corso dei miei oltre quindici anni di carriera nel campo dei big data e dell’analisi, ho creato pipeline di dati con diversi modelli di progettazione e sono sicuro che ce ne siano altri. Ecco perchĂ© mi piace così tanto il mondo della tecnologia. La moltitudine di possibilitĂ  che offre è semplicemente sorprendente.

Quale sistema operativo usi per il tuo data warehouse?

Moderni strumenti di trasformazione dei dati

I moderni strumenti di trasformazione dei dati, noti anche come strumenti di modellazione dei dati o sistemi operativi di data warehouse (DWH), sono stati progettati per semplificare le attivitĂ  di manipolazione dei dati SQL per creare set di dati, visualizzazioni e tabelle. Spesso utilizzano un dialetto simile a SQL per eseguire qualsiasi possibile definizione di dati (DDL) e manipolazione (DML) di cui potremmo aver bisogno, inclusi test di trasformazione dei dati e creazione di set di dati personalizzati in modalitĂ  di sviluppo.

L’abbondanza di soluzioni Data Warehouse ANSI-SQL sul mercato rende questi strumenti estremamente utili. Ad esempio, considera questo elenco di adattatori dbt di seguito. Tutti i leader di mercato sono presenti lì.

Creazione di una nuova connessione utilizzando dbt. Immagine dell’autore.

DBT sta per strumento di creazione del database ed è essenzialmente un’applicazione di pianificazione che può essere eseguita localmente o sul server per eseguire attivitĂ  di trasformazione dei dati. Ad esempio, considera questo semplice modello di seguito. Crea una vista nel nostro database e possiamo materializzarla diciamo ogni 5 minuti per preservare i dati per l’analisi. Nella parte superiore del file abbiamo…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarĂ  pubblicato. I campi obbligatori sono contrassegnati *