Monitoraggio dei modelli di machine learning in produzione: perché e come? | di John Leung | Settembre 2023 | Intelligenza-Artificiale

Come viene influenzato il nostro modello nel mondo in evoluzione? Un’analisi incentrata su esempi di deriva e sull’implementazione di strategie di monitoraggio basate su Python

Lo sviluppo di modelli di Machine Learning (ML) spesso richiede tempo e competenze tecniche. Come appassionati di scienza dei dati, quando acquisiamo un set di dati da esplorare e analizzare, lo addestriamo e convalidiamo con entusiasmo utilizzando diversi modelli all’avanguardia o impiegando strategie incentrate sui dati. È incredibilmente appagante quando ottimizziamo le prestazioni del modello come se tutte le attività fossero state completate.

Tuttavia, dopo aver distribuito il modello in produzione, esistono numerosi motivi che contribuiscono a ridurre le prestazioni o il degrado del modello.

fotografato da Adrian Delforge SU Unsplash

#1 I dati di addestramento vengono generati tramite simulazione

Spesso i data scientist affrontare i limiti nell’accesso ai dati di produzione, il che si traduce nell’addestramento del modello utilizzando invece dati simulati o campione. Sebbene gli ingegneri dei dati abbiano la responsabilità di garantire la rappresentatività dei dati di addestramento in termini di scala e complessità, i dati di addestramento si discostano ancora in una certa misura dai dati di produzione. Esiste anche il rischio di carenze sistematiche nell’elaborazione dei dati a monte, come la raccolta e l’etichettatura dei dati. Questi fattori possono influire sull’estrazione di ulteriori funzionalità di input utili o ostacolare la capacità del modello di generalizzare bene.

Esempio: I dati degli investitori nel settore finanziario o le informazioni sui pazienti nel settore sanitario vengono spesso simulati per motivi di sicurezza e privacy.

#2 I nuovi dati di produzione presentano una nuova distribuzione dei dati

Nel corso del tempo, anche le caratteristiche delle funzionalità di input possono cambiare, ad esempio cambiamenti nelle fasce di età, nelle fasce di reddito o in altri dati demografici dei clienti. La fonte dati stessa può anche essere completamente sostituita a causa di vari casi. Durante il processo di sviluppo del modello, l’ottimizzazione si basa sull’apprendimento e sull’acquisizione di modelli dal gruppo maggioritario all’interno dei dati di addestramento. Tuttavia, con il passare del tempo, la precedente maggioranza potrebbe trasformarsi in minoranza nei dati di produzione, rendendo il modello statico originario inadeguato a soddisfare le più recenti esigenze produttive.