
Non molto tempo fa, tutti i canali di notizie IT hanno riferito del nuovo modello aperto Mixtral 8x22B, che supera ChatGPT 3.5 su benchmark come MMLU (comprensione linguistica multitasking di massa) o WinoGrande (ragionamento basato sul buon senso). Si tratta di un grande risultato per il mondo dei modelli aperti. Naturalmente i benchmark accademici sono interessanti, ma come funziona praticamente questo modello? Quali requisiti di sistema ha ed è davvero migliore rispetto ai modelli linguistici precedenti? In questo articolo metterò alla prova quattro diversi modelli (7B, 8x7B, 22B e 8x22B, con e senza un'architettura “Mixture of Experts”) e vedremo i risultati.
Iniziamo!
Nota a parte: non ho alcun rapporto commerciale con Mistral AI e tutti i test qui vengono eseguiti per conto mio.
Miscela sparsa di esperti (SMoE)
Già all’inizio dell’era LLM si sapeva che i modelli più grandi sono, in generale, più intelligenti, hanno più conoscenze e possono ottenere risultati migliori. Ma i modelli più grandi sono anche più costosi dal punto di vista computazionale. Nessuno aspetterà la risposta del chatbot se ci vogliono 5 minuti. L’idea intuitiva dietro la “miscela di esperti” è…
Fonte: towardsdatascience.com