Il coraggio di apprendere il ML: demistificare la regolarizzazione L1 e L2 (parte 4) |  di Amy Ma |  Dicembre 2023

 | Intelligenza-Artificiale

Esplora la regolarizzazione L1 e L2 come priori bayesiani

fotografato da Dominik Jirovskij SU Unsplash

Bentornati a “Il coraggio di apprendere il machine learning: svelare la regolarizzazione L1 e L2” nel quarto post. L’ultima volta, la nostra coppia mentore-studente ha esplorato le proprietà di regolarizzazione di L1 e L2 attraverso la lente dei moltiplicatori di Lagrange.

In questo segmento conclusivo sulla regolarizzazione delle L1 e L2, i due approfondiranno questi argomenti da una nuova prospettiva: Priori bayesiani. Riepilogheremo anche il modo in cui le regolarizzazione L1 e L2 vengono applicate ai diversi algoritmi.

In questo articolo affronteremo diverse domande interessanti. Se qualcuno di questi argomenti stuzzica la tua curiosità, sei nel posto giusto!

  • Come i MAP priors si riferiscono alle regolarizzazione L1 e L2
  • Una suddivisione intuitiva dell’utilizzo di Laplace e delle distribuzioni normali come valori a priori
  • Comprensione della scarsità indotta dalla regolarizzazione di L1 con un precedente di Laplace
  • Algoritmi compatibili con la regolarizzazione L1 e L2
  • Perché la regolarizzazione L2 viene spesso definita “decadimento del peso” nell’addestramento della rete neurale
  • Le ragioni dell’uso meno frequente della norma L1 nelle reti neurali

Immergiamoci nel modo in cui i diversi valori a priori nella formula MAP modellano il nostro approccio alla regolarizzazione di L1 e L2 (per una procedura dettagliata sulla formulazione di questa equazione, consulta questo post).

Quando consideriamo i pesi a priori, la nostra intuizione iniziale spesso ci porta a scegliere a distribuzione normale come il precedente per i pesi del modello. Con questo, in genere utilizziamo una distribuzione normale a media zero per ciascun peso wi, condividendo la stessa deviazione standard 𝜎. Collegare questa convinzione al termine a priori logp(w) in MAP (dove p(w) rappresenta il termine a priori del peso) ci porta a somma dei pesi quadrati naturalmente. Questo termine è proprio il L2

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *