Quindi hai raccolto i tuoi dati. Hai delineato il business case, deciso un modello candidato (ad esempio Random Forest), impostato il tuo ambiente di sviluppo e le tue mani sono sulla tastiera. Sei pronto per creare e addestrare il tuo modello di serie temporali.
Aspetta: non iniziare ancora. Prima di addestrare e testare il tuo modello Random Forest, dovresti addestrare innanzitutto un modello di base.
UN modello di base è un modello semplice utilizzato per creare un benchmark, o un punto di riferimento, su cui costruirai il tuo modello di machine learning finale e più complesso.
I data scientist creano modelli di base perché:
- I modelli di base possono darti una buona idea di come funzionerà un modello più complesso.
- Se un modello di base funziona male, potrebbe essere un segno di un problema con la qualità dei dati che deve essere risolto.
- Se un modello di base funziona meglio del modello finale, potrebbe indicare problemi con tale algoritmo, funzionalità, iperparametri o altra preelaborazione dei dati.
- Se il modello di base e quello complesso si comportano più o meno allo stesso modo, ciò potrebbe indicare che il modello complesso necessita di una messa a punto più precisa (nelle funzionalità, nell'architettura o negli iperparametri). Potrebbe anche dimostrare che un modello più complesso non è necessario e che sarà sufficiente un modello più semplice.
In genere, un modello di base è a modello statisticocome un modello a media mobile. In alternativa, si tratta di una versione più semplice del modello target: ad esempio, se addestrerai un modello Random Forest, puoi prima addestrare un modello Decision Tree come base di riferimento.
Per i dati delle serie temporali, ci sono un paio di opzioni popolari per i modelli di base che vorrei condividere con te. Entrambi funzionano bene perché presuppongono l'ordine temporale dei dati e fanno previsioni in base ai modelli dei dati.
Previsioni ingenue
La previsione ingenua è la più semplice: presuppone che il valore successivo sarà lo stesso di…
Fonte: towardsdatascience.com