
Ogni data scientist ha familiarità con la sperimentazione.
Conosci il trapano. Si ottiene un set di dati, lo si carica in un notebook Jupyter, lo si esplora, si preelaborano i dati, si adatta uno o due modelli di base e quindi si addestra un modello finale iniziale, come XGBoost. La prima volta, forse non ottimizzi gli iperparametri e includi 20 funzionalità. Quindi, controlli le metriche di errore.
Sembrano a posto, ma forse il tuo modello è un po' eccessivo. Quindi decidi di ottimizzare alcuni parametri di regolarizzazione (ad esempio la profondità massima) per ridurre la complessità del modello ed eseguirlo di nuovo.
Noti un piccolo miglioramento rispetto all'ultima esecuzione, ma forse vorrai anche:
- Aggiungi più funzionalità
- Esegui la selezione delle funzionalità e rimuovi alcune funzionalità
- Prova uno scaler diverso per le tue funzionalità
- Ottimizza diversi/più iperparametri
Man mano che aumentano i diversi tipi di test che desideri eseguire, tanto più difficile diventa ricordare quali combinazioni dei tuoi “esperimenti” hanno effettivamente prodotto i risultati migliori. Puoi eseguire un notebook solo un certo numero di volte, stampare i risultati e copiarli/incollarli in un documento Google prima di sentirti frustrato.
Qui è dove monitoraggio dell'esperimento entra.
Come ho accennato nel mio articolo su diventare un grande scienziato dei datiavere un modo formale per tenere traccia dei tuoi esperimenti ti renderà la vita molto più semplice e i risultati molto più chiari.
In questo articolo ti spiegherò come impostare un esperimento utilizzando Nettuno.aiche ti consente di eseguire esperimenti su 1 progetto gratuitamente e ti permetterà di acquisire familiarità con il processo. Ci sono molti altri ottimi strumenti per tenere traccia degli esperimenti là fuori, ma poiché ho più familiarità con Nettuno, è quello su cui baserò questa guida. Questo non è in alcun modo promozionale: voglio solo mostrare come appare il monitoraggio degli esperimenti in Python e sto usando Neptune come strumento preferito.
Dopo aver installato Neptune tramite pip e configurato l'ambiente del tuo notebook Jupyter, dovrai collegare il tuo notebook a…
Fonte: towardsdatascience.com