Come filtrare passa-basso in Google BigQuery |  di Benjamin Thürer |  Gennaio 2024

 | Intelligenza-Artificiale

Quando si lavora con dati di serie temporali può essere importante applicare un filtro per rimuovere il rumore. Questa storia mostra come implementare un filtro passa-basso in SQL/BigQuery che può tornare utile quando si migliorano le funzionalità ML.

Il filtraggio dei dati delle serie temporali è uno degli strumenti di preelaborazione più utili nella scienza dei dati. In realtà, i dati sono quasi sempre una combinazione di segnale e rumore dove il rumore non è solo definito dalla mancanza di periodicità ma anche dal non rappresentare l’informazione di interesse. Ad esempio, immagina la visita quotidiana a un negozio al dettaglio. Se sei interessato a come i cambiamenti stagionali influiscono sulle visite, potresti non essere interessato ai modelli a breve termine a causa dei cambiamenti nei giorni feriali (potrebbe esserci un numero complessivo di visite più elevato il sabato rispetto al lunedì, ma non è quello che ti interessa).

il filtraggio delle serie temporali è uno strumento di pulizia dei dati

Anche se questo potrebbe sembrare un piccolo problema nei dati, il rumore o le informazioni irrilevanti (come il modello di visita a breve termine) aumentano sicuramente la complessità delle funzionalità e, quindi, influiscono sul modello. Se non si rimuove questo rumore, la complessità del modello e il volume dei dati di addestramento dovrebbero essere adeguati di conseguenza per evitare un adattamento eccessivo.

Figura 1: Dati sintetici che rappresentano un mix di un segnale oscillante veloce e lento. Il segnale blu rappresenta una potenziale caratteristica rumorosa delle serie temporali mentre il segnale rosso rappresenta la versione filtrata che rappresenta le informazioni stagionali di interesse.

Qui è dove filtraggio viene in soccorso. In modo simile al modo in cui si filtrano i valori anomali da un set di training o i parametri meno importanti da un set di funzionalità, il filtraggio delle serie temporali rimuove il rumore da una funzionalità delle serie temporali. In breve: il filtraggio delle serie temporali è uno strumento di pulizia per i tuoi dati. L’applicazione del filtraggio delle serie temporali limiterà i tuoi dati per riflettere solo le frequenze (o modelli temporali) che ti interessano e, quindi, si tradurrà in un segnale più pulito che migliorerà il tuo successivo modello statistico o di apprendimento automatico (vedi Figura 1 per un modello sintetico esempio).

Una descrizione dettagliata di cosa sia un filtro e di come funzioni va oltre lo scopo di questa storia (e di un argomento molto complesso in generale). Tuttavia, ad alto livello, il filtraggio può essere visto come una modifica di un segnale di ingresso applicando un altro segnale (chiamato anche segnale nocciolo oppure filtra…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *