Ottieni il massimo dai tuoi dati con il livellamento di Whittaker-Eilers e la convalida incrociata “leave-one-out”.
In un precedente articolo ho introdotto il Whittaker-Eilers smoother¹ come Il modo perfetto per rendere più fluidi i tuoi dati rumorosi. In poche righe di codice, il metodo fornisce un livellamento rapido e affidabile con interpolazione integrata in grado di gestire grandi quantità di dati mancanti. Inoltre, un solo parametro, λ (lambda), controlla la fluidità dei dati. Scoprirai che qualsiasi livellatore avrà tali parametri e regolarli può essere tremendamente noioso. Quindi, lascia che ti mostri quanto può essere indolore con il metodo giusto.
Levigatura di Whittaker-Eilers
Quando si livellano i dati, è probabile che non ci sia una verità fondamentale a cui si mira; solo qualche rumore nelle tue misurazioni che ostacola i tentativi di analizzarlo. Utilizzando lo smoother Whittaker, possiamo variare λ per alterare il livello di rumore rimosso dai nostri dati.
Con λ compreso tra 10 e 10.000.000 nella Figura 1, come facciamo a sapere quale valore sarebbe più adatto per i nostri dati?
Convalida incrociata senza esclusione
Per avere un'idea di quanto sia efficace lo livellamento per ogni dato λ, abbiamo bisogno di una metrica che possiamo calcolare da ciascuna serie livellata. Poiché non possiamo fare affidamento su una verità concreta, stimeremo lo standard errore quadrato predittivo (PSE) utilizzando validazione incrociata “leave-one-out”. (LOOCV). È un caso speciale di convalida incrociata k-fold in cui il numero di pieghe, Kè uguale alla lunghezza del set di dati, N.
Il calcolo è semplice; rimuoviamo una misura, attenuiamo la serie e calcoliamo il residuo quadrato tra la nostra curva levigata e la misura rimossa. Ripeti l'operazione per ogni misurazione nei dati, fai una media e voilà, abbiamo calcolato il errore di convalida incrociata “leave-one-out”. (CVE) – la nostra stima dell’errore quadratico predittivo.
Nell'equazione sopra, la nostra funzione F è il più liscio e il -io la notazione indica che abbiamo livellato i nostri dati tralasciando il file ith misurazione. Da qui in poi utilizzerò anche l'errore radice di convalida incrociata (RCVE), che è semplicemente la radice quadrata del nostro errore di convalida incrociata.
Fonte: towardsdatascience.com