A rischio di affermare l'ovvio, la più grande debolezza di un data scientist è che non può esercitare la propria arte senza dati di alta qualità. E creare un set di dati di alta qualità non è esattamente banale. Questo diventa l’ostacolo più evidente all’aggiunta di qualsiasi tipo di valore attraverso questa disciplina. A differenza dell'ingegneria in cui puoi rimboccarti le maniche e iniziare a costruire fin dal primo giorno, un data scientist non può fare molto senza prima avere i dati.
In un'organizzazione di grandi e medie dimensioni, questo problema viene in genere risolto investendo prima nell'ingegneria dei dati, facendo circolare i dati in modo che i data scientist possano poi lavorarci sopra e mettere a frutto le proprie competenze. Una caratteristica importante di questi set di dati è che non sono statici, ma animati. Mentre il business si rinnova, i dati continuano a fluire nei set di dati, rendendoli animati e in evoluzione. Anche i prodotti di data science costruiti su di essi potranno quindi evolversi. Questo diventa un ciclo di feedback positivo, in cui una volta che le persone vedono il valore apportato dai prodotti di data science, si guidano ulteriori investimenti nell'ingegneria dei dati e nella raccolta di dati ancora più ricchi che a loro volta consentono applicazioni di data science più potenti e così via.
Anche se questa storia si ripete molte volte dietro le porte chiuse di varie organizzazioni, non l'ho mai vista svolgersi nel regno dell'open source. D'altra parte, esistono molti progetti software open source eccellenti e ampiamente utilizzati. In un certo senso, il mondo dell’open source è in ritardo rispetto al mondo aziendale in questa dimensione di maturità della scienza dei dati.
Ovviamente non sto dicendo che non esistano set di dati open source. Ce ne sono molti come MNIST (per il riconoscimento della grafia). Ma questi sono sempre stati pensati per essere statici, da utilizzare per il benchmarking dei modelli di machine learning. Sono come statue, congelate nel tempo. Belle statue ma pur sempre statue.
Ciò che ho in mente sono set di dati aperti animati, viventi e respiranti. Come esempio ipotetico, immagina che ci fosse un database aperto in cui ogni volta che qualcuno andava a fare la spesa, veniva registrata una voce con ogni articolo acquistato, il suo prezzo, il punto vendita e la sua ubicazione, la data di acquisto, ecc. Un'applicazione di scienza dei dati oltre a questo potrebbe esserci un sistema di raccomandazione che dice alle persone dove fare acquisti in base alla loro lista della spesa sotto…
Fonte: towardsdatascience.com