Il miglior algoritmo di ottimizzazione per la tua rete neurale | di Riccardo Andreoni | Ottobre 2023 | Intelligenza-Artificiale

Come sceglierlo e ridurre al minimo i tempi di addestramento della rete neurale.

Lo sviluppo di qualsiasi modello di machine learning comporta un rigoroso processo sperimentale che segue il ciclo idea-esperimento-valutazione.

Il ciclo sopra descritto viene ripetuto più volte fino al raggiungimento di livelli prestazionali soddisfacenti. La fase di “esperimento” coinvolge sia le fasi di codifica che quelle di addestramento del modello di machine learning. COME i modelli diventano più complessi e sono addestrati molto set di dati più grandiil tempo di formazione inevitabilmente si dilata. Di conseguenza, l’addestramento di una grande rete neurale profonda può essere dolorosamente lento.

Fortunatamente per i professionisti della scienza dei dati, esistono diverse tecniche per accelerare il processo di formazione, tra cui:

Trasferire l’apprendimento.
Inizializzazione del pesocome Glorot o inizializzazione He.
Normalizzazione batch per i dati di allenamento.
Scegliendo un funzione di attivazione affidabile.
Usare un ottimizzatore più veloce.

Sebbene tutte le tecniche che ho indicato siano importanti, in questo post mi concentrerò profondamente sull’ultimo punto. Descriverò algoritmi multipli per l’ottimizzazione dei parametri della rete neurale, evidenziandone sia i vantaggi che i limiti.

Nell’ultima sezione di questo post, presenterò una visualizzazione che mostra il confronto tra gli algoritmi di ottimizzazione discussi.

Per implementazione praticaè possibile accedere a tutto il codice utilizzato in questo articolo in this Repositorio GitHub:

Tradizionalmente, la discesa gradiente batch è considerata la scelta predefinita per il metodo di ottimizzazione nelle reti neurali.

Fonte: towardsdatascience.com