Mixtral demistificante di esperti.  Mistral AI™ Open Source Mixtral 8x7B… |  di Samuel Flender |  Marzo 2024

 | Intelligenza-Artificiale

Il modello Mixtral 8x7B open source di Mistral AI ha fatto scalpore: ecco cosa c'è sotto il cofano

Immagine generata con GPT-4

Mixtral 8x7B, il nuovo LLM di Mistral AI Mixtures of Experts, ha recentemente fatto molto scalpore, con titoli drammatici come “Mistral AI presenta Mixtral 8x7B: un modello linguistico Sparse Mixture of Experts (SMoE)” Trasformare l'apprendimento automatico†o “Mistral AI's Mixtral 8x7B supera GPT-3.5, scuotendo il mondo dell’intelligenza artificialeâ€

Mistral AI è una startup francese di intelligenza artificiale fondata nel 2023 da ex ingegneri di Meta e Google. La società ha rilasciato Mixtral 8x7B – in quella che è stata forse la versione più senza cerimonie nella storia dei LLM – semplicemente scaricando il collegamento magnetico Torrent sul proprio account Twitter l'8 dicembre 2023,

Twitter

scatenando numerosi meme sul modo non convenzionale di Mistral di rilasciare modelli.

Mixtral di esperti” (Jiang et al 2024), il documento di ricerca di accompagnamento, è stato pubblicato circa un mese dopo, l'8 gennaio di quest'anno, su Arxiv. Diamo un'occhiata e vediamo se l'hype è giustificato.

(Avviso spoiler: sotto il cofano non c'è molto di tecnicamente nuovo.)

Ma prima, per contestualizzare, un po’ di storia.

MoE sparso negli LLM: una breve storia

Modelli di miscele di esperti (MoE). risalgono alle ricerche dei primi anni ’90 (Jacobs et al. 1991). L'idea è di modellare una previsione y utilizzando la somma ponderata degli esperti E, dove i pesi sono determinati da una rete di controllo G. È un modo per dividere un problema ampio e complesso in sottoproblemi distinti e più piccoli. Dividi e conquista, se vuoi. Ad esempio, nel lavoro originale, gli autori hanno mostrato come diversi esperti imparano a specializzarsi in diversi confini decisionali in un problema di discriminazione vocale.

Tuttavia, ciò che ha fatto davvero volare MoE è stato il routing top-k, un'idea introdotta per la prima volta nel documento del 2017 “Reti neurali scandalosamente grandi” (Shazeer et al 2017). L'idea chiave è calcolare l'output solo dei migliori k esperti anziché di tutti loro, il che ci consente di mantenere costanti i FLOP anche quando…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *