Problemi nella raccolta dei dati possono causare dati mancanti. Questo problema può verificarsi a causa di vari motivi, come la manutenzione del sensore o il guasto della trasmissione.
I dati mancanti vengono solitamente risolti mediante strategie di imputazione dei dati, come la sostituzione del valore mancante con una statistica centrale. Per le serie temporali, il processo di imputazione è più impegnativo perché le osservazioni sono ordinate. Oltre a ciò, può essere utile scegliere una strategia che consideri il meccanismo che causa la mancanza di dati.
In questo articolo imparerai i principali modelli di dati mancanti delle serie temporali e come gestirli.
I modelli dei dati mancanti, come la loro frequenza, dipendono dal meccanismo che causa la mancanza.
Generalmente, la causa dei dati mancanti rientra in una delle seguenti categorie:
- Mancante completamente casuale: quando non esiste un processo sistematico che faccia sì che un’osservazione manchi. Pertanto, la mancanza non è correlata né a 1) al valore dell’osservazione né a 2) ai valori passati o futuri e al fatto che anche questi siano mancanti. Molti esempi rientrano in questa categoria, come malfunzionamenti casuali dei sensori o corruzione dei dati durante la trasmissione.
- Mancante a caso: quando il valore mancante è correlato ad altri valori della serie, sebbene non correlato al valore stesso (ovvero se è alto o basso). Un esempio è quando l’apparecchiatura viene spenta per manutenzione, quindi il sensore interrompe la trasmissione dei dati per un periodo che abbraccia diverse osservazioni.
- Non mancante a caso: l’osservazione mancante dipende dal suo valore e può dipendere anche da altre variabili o osservazioni. Ad esempio, un sensore di temperatura si guasta durante periodi di condizioni di caldo estremo.
Comprendere il meccanismo che causa la mancanza di dati può aiutarti a scegliere una strategia di imputazione adeguata. Ciò può migliorare la robustezza dei modelli e delle analisi.
Fonte: towardsdatascience.com