Una guida all’infrastruttura di ingegneria dei dati |  di 💡Mike Shakhomirov |  Gennaio 2024

 | Intelligenza-Artificiale

Automatizza il provisioning delle risorse con strumenti moderni

fotografato da Ehud Neuhaus SU Unsplash

I moderni stack di dati sono costituiti da vari strumenti e framework per elaborare i dati. In genere si tratterebbe di un’ampia raccolta di diverse risorse cloud volte a trasformare i dati e portarli allo stato in cui possiamo generare approfondimenti sui dati. Gestire la moltitudine di queste risorse di elaborazione dati non è un compito banale e potrebbe sembrare travolgente. La cosa buona è che gli ingegneri dei dati hanno inventato una soluzione chiamata infrastruttura come codice. Quindi, essenzialmente, è la codifica che ci aiuta a distribuire, fornire e gestire tutte le risorse di cui potremmo aver bisogno nelle nostre pipeline di dati. In questa storia, vorrei discutere delle tecniche più diffuse e dei framework esistenti che mirano a semplificare il provisioning delle risorse e l’implementazione della pipeline di dati. Ricordo come all’inizio della mia carriera nel settore dei dati distribuivo le risorse dati utilizzando l’interfaccia utente Web, ovvero contenitori di archiviazione, ruoli di sicurezza, ecc. Quei giorni sono ormai lontani, ma ricordo ancora la gioia e la felicità quando ho appreso che poteva essere fatto a livello di codice utilizzando modelli e codice.

Stack di dati moderni

Cosa sarebbe: un Modern Data Stack (MDS)? Le tecnologie utilizzate specificamente per organizzare, archiviare e manipolare i dati costituirebbero qualcosa che costituisce un moderno stack di dati (1). Questo è ciò che contribuisce a dare forma a una piattaforma dati moderna e di successo. Ricordo di aver sollevato questa discussione in una delle storie precedenti.

Un progetto semplificato di una piattaforma dati spesso si presenta così:

Progetto semplificato della piattaforma dati. Immagine dell’autore.

Di solito contiene dozzine di diverse origini dati e risorse della piattaforma cloud per elaborarli.

Potrebbero esserci diversi tipi di architettura della piattaforma dati a seconda dei requisiti aziendali e funzionali, delle competenze dei nostri utenti, ecc. Ma in generale la progettazione dell’infrastruttura implica diverse elaborazioni dei dati…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *