IL paradigma di apprendimento multitasking – ovvero la capacità di addestrare modelli su più attività contemporaneamente – è stata una benedizione tanto quanto una maledizione.
Una benedizione perché ci permette di costruire un unico modello laddove prima ne avremmo avuto bisogno di molteplici. Ciò semplifica la vita: meno modelli da mantenere, riqualificare, mettere a punto e monitorare.
Una maledizione perché apre un vaso di Pandora di domande del tutto nuovo: quali compiti imparare insieme? Di quali compiti abbiamo veramente bisogno? Cosa succede se i compiti sono in competizione tra loro? Come possiamo fare in modo che il modello dia priorità a determinati compiti rispetto ad altri? Come possiamo evitare il “task rot”, cioè l’accumulo di task head nel tempo che alla fine porta al degrado delle prestazioni del modello?
Sono domande come queste che hanno generato un nuovo sottodominio del Machine Learning noto come ottimizzazione multitaskingcioè, la scienza su come ottimizzare un modello su compiti multipli, a volte concorrenti.
La scalarizzazione è la risposta della matematica al problema dell’ottimizzazione multi-task. In un modello multi-task stiamo cercando di apprendere K attività, come prevedere “clic”, “aggiungi al carrello” e “acquisto” in un sistema di raccomandazione e-commerce. (In effetti, i moderni sistemi di raccomandazione possono includere più di una dozzina di compiti!) In tale contesto, possiamo definire la soluzione come quella che minimizza
…ovvero, la somma ponderata delle perdite specifiche dell’attività, dove i pesi sono maggiori di 0 e la somma è pari a 1.
Questo trucco di riformulare un problema di apprendimento multi-task come un singolo problema di ottimizzazione è noto come scalarizzazioneed è preso in prestito dalla più ampia disciplina dell’ottimizzazione matematica, trattata in libri di testo come Boyd e Vandenberghe.
Una definizione importante in un problema del genere è quella di ottimalità pareto: una soluzione θ si dice pareto ottimale se ottiene la perdita più bassa per tutti i compiti, cioè non esiste θ con una perdita minore per nessuno dei compiti. Di solito, non esiste un’unica soluzione θ che sia pareto-ottimale, ma invece multipla, formando una curva ad alta dimensione nella perdita…
Fonte: towardsdatascience.com