Algoritmi di ottimizzazione: reti neurali 101 | di Egor Howell | Novembre 2023 | Intelligenza-Artificiale

Come migliorare l’allenamento oltre l’algoritmo di discesa del gradiente “vaniglia”.

https://www.flaticon.com/free-icons/neural-network.icone della rete neurale. Icone della rete neurale create da andinur — Flaticon.

Nel mio ultimo post, abbiamo discusso di come è possibile migliorare le prestazioni delle reti neurali attraverso ottimizzazione degli iperparametri:

Questo è un processo in cui i migliori iperparametri come la velocità di apprendimento e il numero di livelli nascosti vengono “sintonizzati” per trovare quelli più ottimali affinché la nostra rete possa aumentare le sue prestazioni.

Sfortunatamente, questo processo di ottimizzazione per grandi reti neurali profonde (apprendimento approfondito) è faticosamente lento. Un modo per migliorare questo è usare ottimizzatori più veloci rispetto al tradizionale metodo di discesa del gradiente “vaniglia”. In questo post approfondiremo gli ottimizzatori e le varianti più popolari discesa del gradiente che può migliorare la velocità di allenamento e anche la convergenza e confrontarli in PyTorch!

Prima di approfondire, rispolveriamo rapidamente la nostra conoscenza della discesa del gradiente e la teoria alla base.

L’obiettivo della discesa del gradiente è aggiornare i parametri del modello sottraendo il gradiente (derivata parziale) del parametro rispetto alla funzione di perdita. Un tasso di apprendimento, UNserve a regolare questo processo per garantire che l’aggiornamento dei parametri avvenga su una scala ragionevole e non superi o non superi il valore ottimale.

io sono i parametri del modello.
J(θ) è la funzione di perdita.
∇J(θ) è il gradiente della funzione di perdita. ∇ è l’operatore gradiente, noto anche come nabla.
UN è il tasso di apprendimento.