Evitare l'overfitting nelle reti neurali: un'analisi approfondita | di Riccardo Andreoni | Novembre 2023 | Intelligenza-Artificiale

Scopri come implementare tecniche di regolarizzazione per aumentare le prestazioni e prevenire l’overfitting della rete neurale

Quando si addestra una rete neurale profonda, è spesso difficile ottenere le stesse prestazioni sia il set di training che quello di validazione. Un errore considerevolmente più elevato nel set di validazione è a chiaro flag per overfitting: la rete è diventata troppo specializzata nei dati di formazione. In questo articolo, fornisco una guida completa su come aggirare questo problema.

Quando si ha a che fare con qualsiasi applicazione di machine learning, è importante avere una chiara comprensione del bias e varianza del modello. Negli algoritmi tradizionali di machine learning si parla di compromesso tra bias e varianzache consiste nella lotta per minimizzare entrambi i varianza e il pregiudizio di un modello.

Per ridurre la distorsione di un modello (cioè il suo errore derivante da ipotesi errate), abbiamo bisogno di a modello più complesso. Al contrario, ridurre la varianza del modello (la sensibilità del modello nel catturare le variazioni dei dati di addestramento), implica una modello più semplice. È chiaro che il compromesso tra bias e varianza, nel machine learning tradizionale, deriva dal conflitto tra la necessità sia di una modello più complesso e più semplice allo stesso tempo.

Nel Era del deep learning disponiamo di strumenti per ridurre solo la varianza del modello senza danneggiare la distorsione del modello o, al contrario, per ridurre la distorsione senza aumentare la varianza.

Prima di esplorare le diverse tecniche utilizzate per prevenire l’overfitting di una rete neurale, è importante chiarire cosa significa alta varianza o alta distorsione.

Considera un’attività comune della rete neurale come il riconoscimento delle immagini e pensa a una rete neurale in grado di riconoscere la presenza di panda in un’immagine. Possiamo valutare con sicurezza che un essere umano può svolgere questo compito con un errore vicino allo 0%. Di conseguenza, questo è un punto di riferimento ragionevole per l’accuratezza della rete di riconoscimento delle immagini. Dopo aver addestrato la rete neurale sul set di addestramento e valutato le sue prestazioni sia sul set di addestramento che su quello di validazione, potremmo ottenere questi risultati diversi:

Fonte: towardsdatascience.com