Lascia che ti presenti Sarah, una scienziata di dati talentuosa e appassionata, che ha appena ottenuto il lavoro dei suoi sogni presso GreenEnv, una grande azienda che produce prodotti per la pulizia ecologici. GreenEnv dispone di tonnellate di dati su clienti, prodotti e altre aree aziendali. Hanno assunto Sarah per sbloccare il potenziale nascosto di questi dati, scoprire tendenze di mercato, vantaggi competitivi e altro ancora.
Il suo primo compito: analizzare i dati demografici e le abitudini di acquisto dei clienti per creare campagne di marketing mirate. Fiduciosa nelle sue capacità ed entusiasta di applicare i metodi della scienza dei dati, Sarah si è tuffata nel database dei clienti. Ma la sua eccitazione iniziale svanì rapidamente. I dati erano un disastro: formattazione incoerente, nomi errati e voci duplicate ovunque. Qualità dei dati è stato terribile. C'erano variazioni di nomi come “Jhon Smith” e “Micheal Brown” insieme a voci come “Jhonn Smtih” e “Michealw Brown”. Le email avevano spazi extra e persino errori di battitura come “gnail.com” invece di ” €œgmail.com.” insieme a molte altre imprecisioni. Sarah si rese conto del duro lavoro che l'attendeva: la pulizia dei dati.
Formattazione incoerente, valori mancanti e duplicati porterebbero a risultati distorti, fornendo un quadro impreciso della base clienti di GreenEnv. I giorni si trasformarono in settimane mentre Sarah ripuliva instancabilmente i dati, correggendo le incoerenze, colmando le lacune ed eliminando i duplicati. È stato un processo noioso, ma essenziale per garantire che la sua analisi fosse costruita su basi solide.
Chi si preoccupa della qualità dei dati?
Ogni anno, la scarsa qualità dei dati costa alle organizzazioni in media 12,9 milioni di dollari. (1)
Per fortuna, dopo settimane passate a pulire e organizzare questi dati disordinati, Sarah è riuscita a portare a termine il lavoro… o almeno per questa parte…
La sua sfida successiva è arrivata quando si è avventurata nei dati di prodotto, con l'obiettivo di identificare gli articoli più venduti e consigliare opportunità future. Tuttavia, ha riscontrato un problema diverso: una completa mancanza di metadati. Le descrizioni dei prodotti erano assenti e le categorie erano ambigue. Fondamentalmente, non c'erano dati sufficienti per aiutare Sarah a comprendere i dati del prodotto. Sarah si rese conto dell'importanza di gestione dei metadati – informazioni strutturate sui dati stessi. Senza di esso, comprendere e analizzare i dati era quasi impossibile.
La ricerca mostra che la maggior parte dei dati presenta imprecisioni
Una ricerca di Experian rivela che le aziende ritengono che circa il 29% dei loro dati siano in qualche modo imprecisi. (2)
Frustrata ma determinata, Sarah si è rivolta a diversi reparti per mettere insieme le informazioni sui prodotti. Ha scoperto che ogni dipartimento utilizzava il proprio gergo interno e i propri sistemi di classificazione. Marketing e vendite si riferiscono allo stesso prodotto per la pulizia con nomi diversi.
Mentre Sarah approfondiva, scoprì che i set di dati venivano conservati in applicazioni separate da diversi dipartimenti, sistemi di archiviazione obsoleti che faticavano a gestire il crescente volume di dati e Sarah doveva aspettare a lungo prima che le sue query venissero eseguite. Sarah ha notato inoltre che non esistono regole chiare su chi può accedere a quali dati e in quali termini, senza un controllo centralizzato e controlli di accesso adeguati, aumenta il rischio di accesso non autorizzato alle informazioni sensibili, portando potenzialmente a violazioni dei dati e violazioni della conformità. La mancanza di governance dei datiera evidente un insieme di regole e procedure per la gestione dei dati.
Le violazioni dei dati possono essere costose
Secondo il Ponemon Institute, il costo medio di una violazione dei dati nel 2023 è di 4,45 milioni di dollari a livello globale, un record storico, con costi che variano in base al settore e alla località. (3)
Ciascuno dei problemi e degli ostacoli sopra menzionati nella storia di Sarah ha evidenziato l'interconnessione di molti pilastri: qualità dei dati, gestione dei metadatiE governance dei dati tutti hanno svolto un ruolo cruciale nell'accesso e nell'utilizzo di preziose informazioni in GreenEnv.
Il viaggio di Sarah è comune per data scientist e analisti. Molte organizzazioni dispongono di enormi quantità di dati e tutti conoscono il detto: “I dati sono la nuova elettricità”. Ogni organizzazione desidera ottenere il massimo dai propri dati, poiché si tratta di una risorsa molto preziosa. Ma la maggior parte delle persone crede erroneamente (e praticamente) che la semplice assunzione di un analista o di un data scientist sia sufficiente per sbloccare questo valore. Esistono molti pilastri per ottenere il massimo valore dai dati e le organizzazioni devono tenerne conto e prestare attenzione a questi. La parola chiave qui è gestione dati.
Lo sapevate..
L'86% delle organizzazioni afferma di ritenere che investire nella gestione dei dati abbia un impatto diretto sulla crescita del proprio business(4)
Fonte: towardsdatascience.com