I progetti di scienza dei dati spesso coinvolgono sviluppare modelli di machine learning (ML) per risolvere problemi aziendali. Anche se questo può sembrare un luogo comune nel mondo degli affari oggi, comporta comunque diversi rischi.

Vale a dire, lo sviluppo di modelli ML è intrinsecamente incerto, tecnicamente impegnativo, costoso e dispendioso in termini di tempo. Questi rischi motivano quadri di gestione dei progetti appositamente progettati per progetti di scienza dei dati.

Qui descriverò uno di questi approcci e analizzerò i contributi chiave di un project manager in questo contesto.

L'approccio che mi piace utilizzare per i progetti di data science è delineato dal quadro in 5 fasi illustrato di seguito.

Il mio framework di gestione dei progetti di scienza dei dati in 5 passaggi. Immagine dell'autore.

Scavando più a fondo, ecco alcune attività chiave per ciascuna fase.

  • Fase 0: definizione del problema e definizione dell'ambito — Formulare il problema aziendale. Progettare la soluzione di scienza dei dati. Definire le tappe fondamentali del progetto, le attività e le metriche di successo. Ruolo chiave: Responsabile del progetto
  • Fase 1: acquisizione, esplorazione e preparazione dei dati — Valutare i dati disponibili. Acquisire ed esplorare i dati. Sviluppare pipeline di dati. Ruoli chiave: Ingegnere dei dati, Scienziato dei dati
  • Fase 2: sviluppo della soluzione — Sviluppare una soluzione ML. Valutare la validità e il valore della soluzione. Iterare con le parti interessate e rivisitare le fasi passate secondo necessità. Ruolo chiave: Scienziato dei dati
  • Fase 3: distribuzione della soluzione — Integrare la soluzione nel contesto aziendale reale. Sviluppare la pipeline di monitoraggio della soluzione. Ruoli chiave: Ingegnere ML, scienziato dei dati
  • Fase 4: Valutazione e Documentazione — Valutare i risultati del progetto. Fornire documentazione tecnica e guide per l'utente. Rifletti sulle lezioni apprese e sul lavoro futuro. Ruolo chiave: Responsabile del progetto

Un punto importante qui è che i progetti di data science spesso non progrediscono in modo lineare attraverso ciascuna di queste fasi. Piuttosto, è necessaria una certa quantità di iterazione cicli di feedback chiave. Ecco alcuni esempi di come potrebbe apparire.

  • Fase 1 → Fase 0: Quando si esplorano i dati disponibili, diventa chiaro che le informazioni chiave non sono disponibili e il piano del progetto deve essere rivisto.
  • Fase 2 â†' Fase 1: Dopo aver addestrato una manciata di modelli, si scopre che un'eccezione non è stata gestita correttamente nella preparazione dei dati.
  • Fase 2 → Fase 0: I modelli preliminari non dimostrano una forte prestazione predittiva, il che richiede una rivalutazione del valore del progetto.
  • Fase 4 → Fase 0: Ogni progetto ha le sue opportunità di miglioramento. Al termine, i team possono valutare queste opportunità e avviare un altro progetto, a partire dalla Fase 0.

Il project manager (PM) è responsabile ultimo del successo di un progetto. Se il progetto è in ritardo, è in PM. Se i costi superano le stime, è a carico del PM. Se il valore non soddisfa le aspettative, è sul PM.

Sebbene questa responsabilità implichi una vasta gamma di compiti da parte di più contributori, un fattore chiave per il successo di un progetto è l'esecuzione della Fase 0 da parte del PM (come descritto sopra).

La Fase 0 pone le basi di un progetto di scienza dei dati. Proprio come una fondazione mal costruita si tradurrà in un progetto di costruzione difficile, una Fase 0 mal eseguita si tradurrà in un progetto di data science difficile.

I 3 elementi chiave della Fase 0 includono la diagnosi del problema, la progettazione della soluzione e il piano di implementazione (1).

1) Diagnosi del problema

Dei 3 elementi, questo è il più critico perché se sbagli, puoi spendere molto tempo e denaro risolvere il problema sbagliato (vale a dire, viene generato poco valore). Nonostante la sua importanza, molti tendono a sorvolare (se non a saltare del tutto), prendendosi il tempo per fermarsi e pensare al problema aziendale.

Proprio come un medico intervista un paziente per formulare una diagnosi, un PM intervista le parti interessate per comprendere meglio il problema aziendale e identificarne la causa principale. Anche se ci sono molti modi per farlo, mi piace mantenere le cose semplici e concentrarmi sulle domande due domande chiave.

  1. Che problema stai cercando di risolvere? – questo è sempre il miglior punto di partenza per queste conversazioni (1)
  2. Perché è importante per l’azienda? – questo può dare il via a una serie di 5 domande basate sul perché per arrivare alla causa principale del problema (vedi L'approccio dei 5 perché di Toyota) (2)

Una delle competenze più importanti del PM è collaborare efficacemente con le parti interessate per comprendere i loro problemi. Ne parlo ulteriormente in a articolo passato.

2) Progettazione della soluzione

Una volta compreso chiaramente il problema aziendale, il passo successivo è definire come risolverlo. Varie soluzioni a vari livelli di complessità può risolvere qualsiasi problema.

Ad esempio, se il tasso di abbandono dei clienti è elevato a causa di un processo di onboarding lento, alcune soluzioni potenziali potrebbero essere la rimozione di passaggi di onboarding non necessari, l'analisi del punto in cui si verifica l'abbandono e la rielaborazione di tale passaggio, la personalizzazione dell'onboarding in base alle informazioni del cliente, ecc. Si noti che queste soluzioni potrebbero non richiedono l'apprendimento automatico (e va bene).

Supponiamo che, dopo un lungo avanti e indietro, lo stakeholder voglia andare avanti con lo sviluppo di un'esperienza di onboarding personalizzata basata sui profili dei clienti. Anche se questo restringe il campo, questa soluzione può comunque essere implementata in molti modi. quindi, il Il Primo Ministro deve usare il proprio giudizio per proporre una soluzione sulla base delle conversazioni delle parti interessate, di progetti industriali simili e delle risorse disponibili.

3) Piano di attuazione

L'elemento finale della Fase 0 è tradurre la soluzione proposta in un piano concreto di attuazione del progetto. Questo piano è composto da due elementi chiave: una tabella di marcia del progetto e i requisiti del progetto.

UN tabella di marcia del progetto è costituito dalle tappe fondamentali del progetto. Mi piace basare questi traguardi sulle Fasi 1–4, come descritto sopra. Ogni fase è composta da attività assegnate a un ruolo particolare (ad esempio, data engineer, data scientist o ML engineer) e da una data di scadenza (1).

Requisiti del progetto specificare tutte le risorse necessarie per l'implementazione, inclusi requisiti di dati, ruoli chiave, strumenti software e infrastruttura di elaborazione.

Attraverserò la Fase 0 per un caso di studio di esempio per consolidare queste idee. Anche se questo vuole essere istruttivo, è un vero progetto che implementerò (e documenterò) nei futuri articoli di questa serie.

🔗 Elenco di lettura della serie | Playlist di YouTube

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *