I processi gaussiani (GP) sono un’incredibile classe di modelli. Esistono pochissimi algoritmi di machine learning che ti forniscono gratuitamente una misura accurata dell’incertezza pur essendo estremamente flessibili. Il problema è che i medici di base sono concettualmente molto difficili da comprendere. La maggior parte delle spiegazioni utilizza algebra e probabilità complesse, che spesso non sono utili per avere un’intuizione su come funzionano questi modelli.
Ci sono anche molte ottime guide che saltano i calcoli e ti danno l’intuizione di come funzionano questi modelli, ma quando si tratta di usare i medici di famiglia, nel giusto contesto, la mia convinzione personale è che la conoscenza superficiale non basterà. Questo è il motivo per cui ho voluto illustrare un’implementazione semplice, da zero, in modo da avere un quadro più chiaro di cosa sta succedendo sotto il cofano di tutte le librerie che implementano questi modelli per te.
Ti linko anche il mio Deposito GitHubdove troverai l’implementazione dei GP utilizzando solo NumPy. Ho cercato di astrarre il più possibile dai calcoli, ma ovviamente ce n’è ancora qualcuno che è necessario…
Il primo passo è sempre quello di dare un’occhiata ai dati. Utilizzeremo la concentrazione atmosferica mensile di CO2 nel tempo, misurata presso l’osservatorio di Mauna Loa, un set di dati comune per i medici di base (1). Questo è intenzionalmente lo stesso set di dati utilizzato da sklearn nei loro file Esercitazione sul GPche insegna come utilizzare la loro API e non cosa sta succedendo sotto il cofano del modello.
Si tratta di un set di dati molto semplice, che renderà più semplice spiegare i calcoli che seguiranno. Le caratteristiche degne di nota sono la tendenza lineare al rialzo così come la tendenza stagionale, con un periodo di un anno.
Ciò che faremo è separare il componente stagionale E componenti lineari dei dati. Per fare ciò, adattiamo un modello lineare ai dati.
Fonte: towardsdatascience.com