A prova di futuro Il valore delle tue capacità di data science |  di Robert Dowd |  Gennaio 2024

 | Intelligenza-Artificiale

Integrando l’attitudine all’ingegneria dei dati

Questo articolo tratterà un argomento che è un requisito comunemente trascurato per creare e rendere a prova di futuro funzionalità di data science di grande valore.

  • Perché l’integrazione delle funzionalità dei dati è importante
  • Realizzare l’integrazione all’interno di un’organizzazione
  • Priorità e competenze sovrapposte per il successo

Per ogni data scientist, è fondamentale rimanere al passo con le tendenze e gli strumenti tecnologici man mano che il settore si evolve. Con il recente boom dell’intelligenza artificiale, c’è molta attenzione alle tecnologie emergenti chatGPT come prodotto dati su larga scala basato su LLM, Github Copilota per assistere i programmatori nella scrittura del codice con suggerimenti al volo e, naturalmente, molto altro ancora.

Tuttavia, la capacità dei data scientist di utilizzare queste nuove tecnologie e competenze è fortemente influenzata da una frase che tutti conosciamo e amiamo: “Garbage in, garbage out”. Questo concetto ruota attorno all’idea che solide pipeline di dati siano un punto cruciale per una buona scienza dei dati. Sebbene molti lo ritengano vero, la realtà è che le organizzazioni incentrate sui dati spesso non integrano i propri team di data science con supporto dedicato, o talvolta senza, di ingegneria dei dati.

Una serie di conseguenze purtroppo frequenti derivanti dall’isolamento dei team di data science dalle loro controparti di ingegneria causa grattacapi a tutti, come ad esempio:

  1. I data scientist devono farsi strada in un oceano di dati sparsi nell’infrastruttura dell’organizzazione e spesso non sono attrezzati per farlo adeguatamente ingegnere accesso alle risorse necessarie, con conseguente molto tempo speso a mettere insieme soluzioni “rapide”.
  2. Gli ingegneri dei dati si trovano di fronte a “passaggi” di modelli o codice forniti con pochissimi requisiti e il contesto che è vitale per una distribuzione efficiente negli ambienti di produzione e il mantenimento con un supporto di qualità.
  3. Prodotti dati impressionanti (e talvolta costosi da costruire) non arrivano mai nelle mani dei clienti!
“Scienza” dei dati senza i fondamenti adeguati (immagine generata da FlowGPT + DALL-E 3)

Quindi, come componente cruciale nella mappa del successo per consentire una scienza dei dati di grande valore…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *