Questo articolo tratterà un argomento che è un requisito comunemente trascurato per creare e rendere a prova di futuro funzionalità di data science di grande valore.
- Perché l’integrazione delle funzionalità dei dati è importante
- Realizzare l’integrazione all’interno di un’organizzazione
- Priorità e competenze sovrapposte per il successo
Per ogni data scientist, è fondamentale rimanere al passo con le tendenze e gli strumenti tecnologici man mano che il settore si evolve. Con il recente boom dell’intelligenza artificiale, c’è molta attenzione alle tecnologie emergenti chatGPT come prodotto dati su larga scala basato su LLM, Github Copilota per assistere i programmatori nella scrittura del codice con suggerimenti al volo e, naturalmente, molto altro ancora.
Tuttavia, la capacità dei data scientist di utilizzare queste nuove tecnologie e competenze è fortemente influenzata da una frase che tutti conosciamo e amiamo: “Garbage in, garbage out”. Questo concetto ruota attorno all’idea che solide pipeline di dati siano un punto cruciale per una buona scienza dei dati. Sebbene molti lo ritengano vero, la realtà è che le organizzazioni incentrate sui dati spesso non integrano i propri team di data science con supporto dedicato, o talvolta senza, di ingegneria dei dati.
Una serie di conseguenze purtroppo frequenti derivanti dall’isolamento dei team di data science dalle loro controparti di ingegneria causa grattacapi a tutti, come ad esempio:
- I data scientist devono farsi strada in un oceano di dati sparsi nell’infrastruttura dell’organizzazione e spesso non sono attrezzati per farlo adeguatamente ingegnere accesso alle risorse necessarie, con conseguente molto tempo speso a mettere insieme soluzioni “rapide”.
- Gli ingegneri dei dati si trovano di fronte a “passaggi” di modelli o codice forniti con pochissimi requisiti e il contesto che è vitale per una distribuzione efficiente negli ambienti di produzione e il mantenimento con un supporto di qualità.
- Prodotti dati impressionanti (e talvolta costosi da costruire) non arrivano mai nelle mani dei clienti!
Quindi, come componente cruciale nella mappa del successo per consentire una scienza dei dati di grande valore…
Fonte: towardsdatascience.com