Quando ho iniziato a lavorare in Data Science, il mio focus era principalmente sul miglioramento delle competenze tecniche come la programmazione e la costruzione di modelli. Dopo alcuni anni, il mio interesse si è spostato verso l’implementazione di modelli e MLOps, portandomi al passaggio all’ingegneria del machine learning. Parlare in pubblico e presentare presentazioni hanno sempre fatto parte del lavoro, soprattutto quando si trasmettevano i risultati a un pubblico non tecnico. Tuttavia, le cose sono cambiate l’anno scorso quando ho iniziato a lavorare su progetti più complessi con potenziali rischi reputazionali o finanziari per le società assumenti.
A questo punto, i modelli richiedevano la convalida da parte di un comitato di revisori sia tecnici che non tecnici prima di entrare in produzione. Ciò richiedeva una documentazione adeguata, che coprisse tutto, dall’architettura e la metodologia di formazione ai rapporti sulle prestazioni e alla cronologia degli esperimenti. Significava che avere buone prestazioni non era sufficiente; Ho dovuto convincere gli altri, dai data scientist agli specialisti della valutazione del rischio, che i miei modelli non erano solo efficaci ma anche sicuri.
In sostanza, dovevo imparare a venderli.
Avviare il processo di dettaglio dei miei modelli inizialmente è servito come requisito cruciale per la validazione, ma si è rapidamente evoluto in una routine radicata nel mio approccio, estendendosi anche ai progetti personali. All’interno di questo articolo, mi propongo di impartire cinque preziosi spunti derivati dalla mia esperienza nella documentazione che potrebbero aiutarti a crearne uno tuo.
Questa è la base di tutta la tua documentazione. Quando inizi a sviluppare un modello, ti impegni in un processo di trail and error durante il quale provi diversi tipi di pre-elaborazione, architetture del modello, iperparametri e ingegneria delle funzionalità. Consiglio vivamente di registrare tutto ciò che fai, non necessariamente per mostrare tutto ciò che hai trovato, ma perché ti potrebbe essere chiesto di fornire una spiegazione delle scelte che hai fatto durante lo sviluppo.
Ad esempio, potresti aver scoperto che i modelli XGBoost generalmente superano RandomForests nel tuo caso d’uso: se hai esperimenti che lo dimostrano nei tuoi log, puoi facilmente estrarli se ti viene chiesto di fornire un esempio o di dimostrare che…
Fonte: towardsdatascience.com