Il coraggio di apprendere il ML: svelare la regolarizzazione L1 e L2 (parte 2) | di Amy Ma | Novembre 2023 | Intelligenza-Artificiale

Sbloccare l’intuizione dietro la sparsità L1 con i moltiplicatori di Lagrange

Bentornati a “Il coraggio di apprendere il machine learning: svelare la regolarizzazione L1 e L2”, seconda parte. In la nostra discussione precedenteabbiamo esplorato i vantaggi di coefficienti più piccoli e i mezzi per ottenerli attraverso tecniche di penalizzazione del peso. Ora, in questo follow-up, il nostro mentore e studente approfondirà ancora di più il regno della regolarizzazione di L1 e L2.

Se ti stai chiedendo domande come queste, sei nel posto giusto:

Qual è il motivo dietro la regolarizzazione dei nomi L1 e L2?
Come interpretiamo il classico grafico di regolarizzazione L1 e L2?
Cosa sono i moltiplicatori di Lagrange e come possiamo capirli intuitivamente?
Applicazione dei moltiplicatori di Lagrange per comprendere la sparsità L1.

Il tuo coinvolgimento (Mi piace, commenti e follower) non si limita a sollevare il morale; alimenta il nostro viaggio di scoperta! Quindi, tuffiamoci.

fotografato da Aaron Bianco Tessitore SU Unsplash

Il nome, regolarizzazione L1 e L2, deriva direttamente dal concetto di norme Lp. Le norme Lp rappresentano diversi modi per calcolare le distanze da un punto all’origine in uno spazio. Ad esempio, la norma L1, nota anche come distanza di Manhattan, calcola la distanza utilizzando i valori assoluti delle coordinate, come ∣X∣+∣sì∣. D’altra parte, la norma L2, o distanza euclidea, la calcola come radice quadrata della somma dei valori al quadrato, che è sqrt(x² + y²)

Nel contesto della regolarizzazione nell’apprendimento automatico, queste norme vengono utilizzate per creare termini di penalità che vengono aggiunti alla funzione di perdita. Si può pensare alla regolarizzazione Lp come alla misurazione della distanza totale dei pesi del modello dall’origine in uno spazio ad alta dimensione. La scelta della norma influenza la natura di questa penalità: la norma L1 tende a rendere zero alcuni coefficienti, selezionando di fatto caratteristiche più importanti, mentre la norma L2 riduce i coefficienti verso zero, garantendo che nessuna singola caratteristica influenzi in modo sproporzionato il modello.

Pertanto, la regolarizzazione L1 e L2 prende il nome da queste norme matematiche: norma L1 e norma L2.

Fonte: towardsdatascience.com