Il coraggio di apprendere il ML: demistificare la regolarizzazione L1 e L2 (parte 4) | di Amy Ma | Dicembre 2023 | Intelligenza-Artificiale

Esplora la regolarizzazione L1 e L2 come priori bayesiani

fotografato da Dominik Jirovskij SU Unsplash

Bentornati a “Il coraggio di apprendere il machine learning: svelare la regolarizzazione L1 e L2” nel quarto post. L’ultima volta, la nostra coppia mentore-studente ha esplorato le proprietà di regolarizzazione di L1 e L2 attraverso la lente dei moltiplicatori di Lagrange.

In questo segmento conclusivo sulla regolarizzazione delle L1 e L2, i due approfondiranno questi argomenti da una nuova prospettiva: Priori bayesiani. Riepilogheremo anche il modo in cui le regolarizzazione L1 e L2 vengono applicate ai diversi algoritmi.

In questo articolo affronteremo diverse domande interessanti. Se qualcuno di questi argomenti stuzzica la tua curiosità, sei nel posto giusto!

Come i MAP priors si riferiscono alle regolarizzazione L1 e L2
Una suddivisione intuitiva dell’utilizzo di Laplace e delle distribuzioni normali come valori a priori
Comprensione della scarsità indotta dalla regolarizzazione di L1 con un precedente di Laplace
Algoritmi compatibili con la regolarizzazione L1 e L2
Perché la regolarizzazione L2 viene spesso definita “decadimento del peso” nell’addestramento della rete neurale
Le ragioni dell’uso meno frequente della norma L1 nelle reti neurali

Immergiamoci nel modo in cui i diversi valori a priori nella formula MAP modellano il nostro approccio alla regolarizzazione di L1 e L2 (per una procedura dettagliata sulla formulazione di questa equazione, consulta questo post).

Quando consideriamo i pesi a priori, la nostra intuizione iniziale spesso ci porta a scegliere a distribuzione normale come il precedente per i pesi del modello. Con questo, in genere utilizziamo una distribuzione normale a media zero per ciascun peso wi, condividendo la stessa deviazione standard 𝜎. Collegare questa convinzione al termine a priori logp(w) in MAP (dove p(w) rappresenta il termine a priori del peso) ci porta a somma dei pesi quadrati naturalmente. Questo termine è proprio il L2…

Fonte: towardsdatascience.com