Il coraggio di apprendere il ML: demistificare la regolarizzazione L1 e L2 (parte 3) |  di Amy Ma |  Novembre 2023

 | Intelligenza-Artificiale

Sono felice che tu abbia sollevato questa domanda. Per arrivare subito al punto, in genere evitiamo P valori inferiori a 1 perché portano a problemi di ottimizzazione non convessa. Vorrei illustrarlo con un’immagine che mostra la forma delle norme Lp per diversi P valori. Dai un’occhiata da vicino quando p=0,5; noterai che la forma è decisamente non convessa.

La forma delle norme Lp per diversi valori p.  Fonte: https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40b dSdhGkWB
La forma delle norme Lp per diversi valori p. Fonte: https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40bdS dhGkWB

Ciò diventa ancora più chiaro quando guardiamo una rappresentazione 3D, presupponendo che stiamo ottimizzando tre pesi. In questo caso è evidente che il problema non è convesso, con numerosi minimi locali che compaiono lungo i confini.

Fonte: https://ekamperi.github.io/images/lp_norms_3d.png

Il motivo per cui in genere evitiamo i problemi non convessi nell’apprendimento automatico è la loro complessità. Con un problema convesso, ti viene garantito un minimo globale: questo lo rende generalmente più facile da risolvere. D’altra parte, i problemi non convessi spesso presentano minimi locali multipli e possono essere computazionalmente intensivi e imprevedibili. È proprio questo tipo di sfide che miriamo a eludere nel machine learning.

Quando utilizziamo tecniche come i moltiplicatori di Lagrange per ottimizzare una funzione con determinati vincoli, è fondamentale che questi vincoli siano funzioni convesse. Ciò garantisce che aggiungerli al problema originale non ne alteri le proprietà fondamentali, rendendone più difficile la risoluzione. Questo aspetto è fondamentale; in caso contrario, l’aggiunta di vincoli potrebbe aggiungere ulteriori difficoltà al problema originale.

Le tue domande toccano un aspetto interessante del deep learning. Anche se non è che preferiamo problemi non convessi, è più accurato dirlo spesso li incontriamo e dobbiamo confrontarci nel campo del deep learning. Ecco perché:

  1. La natura dei modelli di deep learning porta a una superficie di perdita non convessa: La maggior parte dei modelli di deep learning, in particolare le reti neurali con strati nascosti, hanno intrinsecamente funzioni di perdita non convesse. Ciò è dovuto alle trasformazioni complesse e non lineari che si verificano all’interno di questi modelli. La combinazione di queste non linearità e l’elevata dimensionalità dello spazio dei parametri risulta tipicamente in una superficie di perdita non convessa.
  2. I minimi locali non sono più un problema nel deep learning: Negli spazi ad alta dimensione, tipici del deep learning, i minimi locali non sono così problematici come potrebbero essere negli spazi a dimensione inferiore. La ricerca suggerisce che molti dei minimi locali nel deep learning hanno un valore vicino al minimo globale. Inoltre, i punti di sella – punti in cui il gradiente è zero ma non sono né massimi né minimi – sono più comuni in tali spazi e rappresentano una sfida più grande.
  3. Esistono tecniche di ottimizzazione avanzate che sono più efficaci nella gestione degli spazi non convessi. Tecniche avanzate di ottimizzazione, come la discesa stocastica del gradiente (SGD) e le sue varianti, sono state particolarmente efficaci nel trovare buone soluzioni in questi spazi non convessi. Anche se queste soluzioni potrebbero non rappresentare dei minimi globali, spesso sono sufficientemente valide da garantire prestazioni elevate in compiti pratici.

Anche se i modelli di deep learning non sono convessi, eccellono nel catturare modelli e relazioni complessi in set di dati di grandi dimensioni. Inoltre, la ricerca sulle funzioni non convesse progredisce continuamente, migliorando la nostra comprensione. Guardando al futuro, abbiamo la possibilità di gestire i problemi non convessi in modo più efficiente e con meno preoccupazioni.

Ricordiamo l’immagine di cui abbiamo discusso in precedenza che mostra le forme delle norme Lp per vari valori di P. COME P aumenta, la forma della norma Lp evolve. Ad esempio, a p = 3assomiglia a un quadrato con angoli arrotondati e come P prossimo all’infinito forma un quadrato perfetto.

La forma delle norme Lp per diversi valori p.  Fonte: https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40b dSdhGkWB
La forma delle norme Lp per diversi valori p. Fonte: https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40bdS dhGkWB

Nel contesto del nostro problema di ottimizzazione, consideriamo norme più elevate come L3 o L4. Similmente alla regolarizzazione L2, dove la funzione di perdita e i contorni dei vincoli si intersecano su bordi arrotondati, queste norme più elevate incoraggerebbero i pesi ad avvicinarsi allo zero, proprio come la regolarizzazione L2. (Se questa parte non è chiara, sentitevi liberi di rivisitarla Parte 2 per una spiegazione più dettagliata.) Sulla base di questa affermazione, possiamo parlare delle due ragioni cruciali per cui le norme L3 e L4 non sono comunemente utilizzate:

  1. Le norme L3 e L4 dimostrano effetti simili a quelli di L2, senza offrire nuovi vantaggi significativi (rendere i pesi prossimi allo 0). La regolarizzazione L1, al contrario, azzera i pesi e introduce la scarsità, utile per la selezione delle caratteristiche.
  2. La complessità computazionale è un altro aspetto vitale. La regolarizzazione influisce sulla complessità del processo di ottimizzazione. Le norme L3 e L4 sono computazionalmente più pesanti di L2, rendendole meno fattibili per la maggior parte delle applicazioni di machine learning.

Per riassumere, sebbene le norme L3 e L4 possano essere utilizzate in teoria, non forniscono vantaggi unici rispetto alla regolarizzazione L1 o L2 e la loro inefficienza computazionale le rende una scelta meno pratica.

Sì, è effettivamente possibile combinare la regolarizzazione L1 e L2, una tecnica spesso definita regolarizzazione Elastic Net. Questo approccio unisce insieme le proprietà della regolarizzazione L1 (lazo) e L2 (cresta) e può essere utile durante le sfide.

La regolarizzazione Elastic Net è una combinazione lineare dei termini di regolarizzazione L1 e L2. Aggiunge sia la norma L1 che L2 alla funzione di perdita. Quindi ha due parametri da ottimizzare, lambda1 e lambda2

Regolarizzazione della rete elastica.  Fonte: https://wikimedia.org/api/rest_v1/media/math/render/svg/a66c7bfcf201d515eb71dd0aed5c8553ce990b6e
Regolarizzazione della rete elastica. Fonte: https://wikimedia.org/api/rest_v1/media/math/render/svg/a66c7bfcf201d515eb71dd0aed5c8553ce990b6e

Combinando entrambe le tecniche di regolarizzazione, Elastic Net può migliorare la capacità di generalizzazione del modello, riducendo il rischio di overfitting in modo più efficace rispetto all’utilizzo di L1 o L2 da sole.

Analizziamo i suoi vantaggi:

  1. Elastic Net offre maggiore stabilità rispetto a L1. La regolarizzazione L1 può portare a modelli sparsi, utili per la selezione delle funzionalità. Ma può anche essere instabile in determinate situazioni. Ad esempio, la regolarizzazione L1 può selezionare arbitrariamente caratteristiche tra variabili altamente correlate (mentre fa sì che i coefficienti degli altri diventino 0). Mentre Elastic Net può distribuire i pesi in modo più uniforme tra queste variabili.
  2. L2 può essere più stabile della regolarizzazione L1, ma non incoraggia la scarsità. Elastic Net mira a bilanciare questi due aspetti, portando potenzialmente a modelli più robusti.

Tuttavia, La regolarizzazione di Elastic Net introduce un iperparametro aggiuntivo che richiede un’ottimizzazione meticolosa. Il raggiungimento del giusto equilibrio tra la regolarizzazione L1 e L2 e le prestazioni ottimali del modello implica maggiore sforzo computazionale. Questa ulteriore complessità è il motivo per cui non viene utilizzato frequentemente.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *