Evita di quantizzare Llama 3 8B con GPTQ e usa invece BitsandBytes

 | Intelligenza-Artificiale

Llama 2 vs. Llama 3 vs. Mistral 7B, quantizzato con GPTQ e Bitsandbytes

Generato con DALL-E

Con la quantizzazione, possiamo ridurre la dimensione dei modelli linguistici di grandi dimensioni (LLM). Gli LLM quantizzati sono più facili da eseguire su GPU con memoria più piccola e fungono effettivamente da metodo di compressione per LLM.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *