Streaming è uno dei modelli di progettazione di pipeline di dati piĂą popolari. L’utilizzo di un evento come singolo punto dati crea un flusso costante di dati da un punto a un altro consentendo l’opportunitĂ di acquisizione e analisi dei dati in tempo reale. Se vuoi familiarizzare con lo streaming di dati e imparare come creare pipeline di dati in tempo reale, questa storia fa per te. Scopri come testare la soluzione e simulare i dati di test per simulare i flussi di eventi. Questo articolo rappresenta un’ottima opportunitĂ per acquisire alcune competenze di ingegneria dei dati ricercate lavorando con strumenti e framework di streaming popolari, ad esempio Kinesis, Kafka e Spark. Vorrei parlare dei vantaggi, degli esempi e dei casi d’uso dello streaming di dati.
Cos’è esattamente lo streaming di dati?
Lo streaming di dati, noto anche come elaborazione del flusso di eventi, è un modello di progettazione della pipeline di dati in cui i punti dati fluiscono costantemente dall’origine alla destinazione. Può essere elaborato in tempo reale, consentendo alle funzionalitĂ di analisi in tempo reale di agire sui flussi di dati e sugli eventi di analisi in modo estremamente rapido. Le applicazioni possono innescare risposte immediate a nuovi eventi relativi ai dati grazie all’elaborazione del flusso e in genere sarebbe una delle soluzioni piĂą popolari per elaborare i dati a livello aziendale.
Esiste una pipeline di dati ogni volta che avviene l’elaborazione dei dati tra i punti A e B (1).
In questo esempio, possiamo creare un file Streaming dell’ELT pipeline di dati a AWS Redshift. AWS Flusso di consegna della manichetta antincendio può offrire questo tipo di integrazione perfetta quando crea un feed di dati direttamente nella tabella del data warehouse. Quindi i dati verranno trasformati per creare report AWS Quicksight come strumento di BI.
Immaginiamo di dover creare una dashboard di reporting per visualizzare i flussi di entrate nella nostra azienda. In molti scenari, un requisito aziendale è generare insight in tempo reale. Questo è esattamente il caso in cui vorremmo utilizzare streaming.
I flussi di dati possono essere generati da varie fonti di dati, ad esempio IoT, flussi di dati di server, eventi di marketing in-app, attivitĂ dell’utente, transazioni di pagamento…
Fonte: towardsdatascience.com