Mistral vs Mixtral: confronto tra i modelli linguistici di grandi dimensioni 7B, 8x7B e 8x22B | di Dmitrii Eliuseev | Aprile 2024 | Intelligenza-Artificiale

Indice contenuti

Esecuzione dei modelli 7B e 22B in Google Colab

10 minuti di lettura

16 ore fa

Non molto tempo fa, tutti i canali di notizie IT hanno riferito del nuovo modello aperto Mixtral 8x22B, che supera ChatGPT 3.5 su benchmark come MMLU (comprensione linguistica multitasking di massa) o WinoGrande (ragionamento basato sul buon senso). Si tratta di un grande risultato per il mondo dei modelli aperti. Naturalmente i benchmark accademici sono interessanti, ma come funziona praticamente questo modello? Quali requisiti di sistema ha ed è davvero migliore rispetto ai modelli linguistici precedenti? In questo articolo metterò alla prova quattro diversi modelli (7B, 8x7B, 22B e 8x22B, con e senza un'architettura “Mixture of Experts”) e vedremo i risultati.

Iniziamo!

Nota a parte: non ho alcun rapporto commerciale con Mistral AI e tutti i test qui vengono eseguiti per conto mio.

Miscela sparsa di esperti (SMoE)

Già all’inizio dell’era LLM si sapeva che i modelli più grandi sono, in generale, più intelligenti, hanno più conoscenze e possono ottenere risultati migliori. Ma i modelli più grandi sono anche più costosi dal punto di vista computazionale. Nessuno aspetterà la risposta del chatbot se ci vogliono 5 minuti. L’idea intuitiva dietro la “miscela di esperti” è…

Fonte: towardsdatascience.com