INGEGNERIA DEI DATI
Quando pensiamo all’ingegneria dei dati, le prime competenze di programmazione che di solito vengono in mente sono SQL e forse Python. SQL è questo linguaggio ben noto per l’interrogazione dei dati, profondamente radicato nel mondo dei dati e delle pipeline. Python, d’altro canto, è diventato piuttosto potente nella scienza dei dati e ora sta lasciando il segno nel campo in evoluzione dell’ingegneria dei dati. Ma questa credenza comune è corretta? SQL e Python sono davvero le competenze di programmazione più importanti per gli ingegneri dei dati? In questo articolo condividerò le mie esperienze su questo argomento, con l’obiettivo di aiutare i giovani professionisti a individuare le migliori competenze per sfruttare al massimo il loro tempo e le loro energie.
Nell’ingegneria dei dati di oggi gestiamo un’enorme quantità di dati. Il compito principale è capire come raccogliere, modificare e archiviare questo enorme carico di dati ogni giorno, ora o anche in tempo reale. Ciò che rende tutto più complicato è garantire che diversi servizi dati possano funzionare senza problemi su vari sistemi senza preoccuparsi di ciò che accade al di sotto.
Negli ultimi 15 anni, persone intelligenti hanno ideato strutture informatiche distribuite per gestire questo sovraccarico di dati. Hadoop e Spark sono due grandi nomi in questo gioco. Poiché entrambi questi framework sono costruiti principalmente utilizzando i linguaggi JVM (Java Virtual Machine) (Hadoop utilizza Java e Spark utilizza Scala), molti esperti di dati e software ritengono che Java e Scala siano la via da seguire nell’ingegneria dei dati.
Inoltre, la capacità delle applicazioni JVM di essere portabili le rende una scelta eccellente per le applicazioni dati che operano su sistemi e ambienti diversi. Puoi sviluppare pipeline di dati che funzionano perfettamente su varie configurazioni cloud e locali, consentendoti di aumentare o ridurre i tuoi sistemi senza preoccuparti dell’infrastruttura sottostante.
Ora che abbiamo esplorato i vantaggi di Java e Scala, o, più in generale, delle applicazioni dati basate su JVM, nella gestione dei big data, la domanda logica successiva è: cosa fare…
Fonte: towardsdatascience.com