Alcuni anni fa, il team della nostra piattaforma dati mirava a individuare le preoccupazioni principali dei nostri utenti di dati. Abbiamo condotto un sondaggio tra le persone che interagiscono con la nostra piattaforma dati e, non sorprende che la preoccupazione principale evidenziata sia stata la qualità dei dati.
La risposta iniziale, caratteristica della nostra mentalità ingegneristica, è stata quella di sviluppare strumenti per la qualità dei dati. Abbiamo introdotto uno strumento interno denominato Contessa. Nonostante fosse piuttosto complicato e richiedesse una significativa configurazione manuale, Contessa ha facilitato i controlli per le dimensioni standard della qualità dei dati, comprendendo coerenza, tempestività, validità, unicità, accuratezza e completezza. Dopo aver utilizzato lo strumento per un paio di mesi con centinaia di controlli sulla qualità dei dati, abbiamo concluso che:
- I controlli sulla qualità dei dati occasionalmente hanno aiutato gli utenti dei dati a scoprire, in un arco di tempo più breve, che i dati erano compromessi e su cui non era possibile fare affidamento.
- Nonostante la frequente esecuzione dei controlli sulla qualità dei dati, non si è riscontrato alcun miglioramento apprezzabile nella percezione soggettiva della qualità dei dati.
- Per una parte significativa dei problemi, in particolare quelli identificati attraverso controlli automatizzati della qualità dei dati quali coerenza o validità, non è mai stata intrapresa alcuna azione correttiva.
L’indagine e la misurazione oggettiva sono strumenti utili, ma nulla può sostituire una discussione davanti a un caffè e una torta, come scrive Jane Carruthers nel suo libro: “Il manuale del Chief Data Officer”. In effetti, lo consiglio a chiunque, poiché le conversazioni individuali ci hanno aiutato a scoprire un altro aspetto importante della situazione. Alcune di queste conversazioni si sono svolte come segue:
“Ehi, dici che la qualità dei dati è scarsa, cosa intendi con questo?”
#1 Analista aziendale dei prezzi: “Stiamo lavorando per impostare il prezzo per il prodotto accessorio X. Nel set di dati che utilizziamo, mancano dati su quali fossero le entrate effettive del prodotto X per ciascun ordine. Disponiamo di questo set di dati, ma contiene solo il valore previsto delle entrate di X al momento dell’acquisto. Possiamo vedere anche le entrate effettive per prodotto, ma non a livello di granularità dell’ordine.”
Fonte: towardsdatascience.com