I modelli esperti sono una delle invenzioni più utili nel campo dell’apprendimento automatico, ma difficilmente ricevono tutta l’attenzione che meritano. In effetti, la modellazione esperta non solo ci consente di addestrare reti neurali che sono “scandalosamente grandi” (ne parleremo più avanti), ma ci consente anche di costruire modelli che apprendono di più come il cervello umano, cioè diverse regioni si specializzano in diversi tipi di input.
In questo articolo faremo un tour delle principali innovazioni nella modellazione esperta che alla fine hanno portato a scoperte recenti come Switch Transformer e l’algoritmo Expert Choice Routing. Ma torniamo prima al documento da cui tutto ha avuto inizio: “Mixtures of Experts”.
Miscele di esperti (1991)
L’idea delle miscele di esperti (MoE) risale a più di 3 decenni fa, a un’iniziativa del 1991. carta co-autore nientemeno che del padrino dell’intelligenza artificiale, Geoffrey Hinton. L’idea chiave nel MoE è quella di modellare un output “y” combinando un numero di “esperti” E, il peso di ciascuno è controllato da una “rete di controllo” G:
Un esperto in questo contesto può essere qualsiasi tipo di modello, ma di solito viene scelto per essere una rete neurale multistrato e la rete di accesso è
dove W è una matrice apprendibile che assegna esempi di formazione agli esperti. Quando si addestrano i modelli MoE, l’obiettivo di apprendimento è quindi duplice:
- gli esperti impareranno a elaborare l’output che viene loro fornito nel miglior output possibile (cioè una previsione) e
- la rete di accesso imparerà a “instradare” i giusti esempi di formazione agli esperti giusti, apprendendo congiuntamente la matrice di instradamento W.
Perché si dovrebbe fare questo? E perché funziona? Ad alto livello, ci sono tre motivazioni principali per l’utilizzo di tale approccio:
Innanzitutto, MoE consente di ridimensionare le reti neurali a dimensioni molto grandi a causa della scarsità del modello risultante, ovvero, anche se il modello complessivo è grande, solo un piccolo…