Bentornati a “Il coraggio di apprendere il machine learning: svelare la regolarizzazione L1 e L2” nel quarto post. L’ultima volta, la nostra coppia mentore-studente ha esplorato le proprietà di regolarizzazione di L1 e L2 attraverso la lente dei moltiplicatori di Lagrange.
In questo segmento conclusivo sulla regolarizzazione delle L1 e L2, i due approfondiranno questi argomenti da una nuova prospettiva: Priori bayesiani. Riepilogheremo anche il modo in cui le regolarizzazione L1 e L2 vengono applicate ai diversi algoritmi.
In questo articolo affronteremo diverse domande interessanti. Se qualcuno di questi argomenti stuzzica la tua curiosità, sei nel posto giusto!
- Come i MAP priors si riferiscono alle regolarizzazione L1 e L2
- Una suddivisione intuitiva dell’utilizzo di Laplace e delle distribuzioni normali come valori a priori
- Comprensione della scarsità indotta dalla regolarizzazione di L1 con un precedente di Laplace
- Algoritmi compatibili con la regolarizzazione L1 e L2
- Perché la regolarizzazione L2 viene spesso definita “decadimento del peso” nell’addestramento della rete neurale
- Le ragioni dell’uso meno frequente della norma L1 nelle reti neurali
Immergiamoci nel modo in cui i diversi valori a priori nella formula MAP modellano il nostro approccio alla regolarizzazione di L1 e L2 (per una procedura dettagliata sulla formulazione di questa equazione, consulta questo post).
Quando consideriamo i pesi a priori, la nostra intuizione iniziale spesso ci porta a scegliere a distribuzione normale come il precedente per i pesi del modello. Con questo, in genere utilizziamo una distribuzione normale a media zero per ciascun peso wi, condividendo la stessa deviazione standard 𝜎. Collegare questa convinzione al termine a priori logp(w) in MAP (dove p(w) rappresenta il termine a priori del peso) ci porta a somma dei pesi quadrati naturalmente. Questo termine è proprio il L2…
Fonte: towardsdatascience.com