TIl tempo è il continuum più ben definito in fisica e, quindi, in natura. Non dovrebbe sorprendere, quindi, l’importanza della continuità nei set di dati delle serie temporali – una sequenza cronologica di osservazioni.
Questo concetto da solo guida la motivazione dietro questo articolo. I set di dati del mondo reale sono soggetti a valori mancanti per vari motivi, come sensori difettosi, errori nell’acquisizione dei dati o semplicemente l’assenza di informazioni durante un determinato periodo di tempo. Ciò, tuttavia, non cambia la natura sottostante del processo di generazione dei dati delle tue funzionalità.
Comprendere cosa ha causato tali interruzioni e analizzarle e gestirle in un set di dati di serie temporali è quindi fondamentale per qualsiasi attività successiva.
Sommario
L’obiettivo di questo articolo
Dopo un analisi esplorativa completa delle serie temporali, potresti scoprire che i valori mancanti sono presenti in misura considerevole. Cercando di comprendere la natura dei tuoi dati, dovresti essere in grado di differenziare un divario che rappresenta una mancanza da un divario che comporta un’effettiva interruzione, caratterizzandolo come una serie intermittente.
Questo articolo si concentrerà sul primo scenario: analisi dei valori mancanti e metodi per valutare i risultati dell’imputazione. Sebbene le tecniche effettive per eseguire l’imputazione siano molte (1)(2), approfondirò le…
Fonte: towardsdatascience.com