Evita di quantizzare Llama 3 8B con GPTQ e usa invece BitsandBytes | Intelligenza-Artificiale - Intelligenza Artificiale

Evita di quantizzare Llama 3 8B con GPTQ e usa invece BitsandBytes

| Intelligenza-Artificiale

Llama 2 vs. Llama 3 vs. Mistral 7B, quantizzato con GPTQ e Bitsandbytes

Generato con DALL-E

Con la quantizzazione, possiamo ridurre la dimensione dei modelli linguistici di grandi dimensioni (LLM). Gli LLM quantizzati sono più facili da eseguire su GPU con memoria più piccola e fungono effettivamente da metodo di compressione per LLM.

Fonte: towardsdatascience.com

Lascia un commento Annulla risposta