Quale metodo di quantizzazione è adatto a te?(GPTQ vs. GGUF vs. AWQ) | di Maarten Grootendorst | Novembre 2023 | Intelligenza-Artificiale

Esplorazione di modelli linguistici di grandi dimensioni prequantizzati

Nel corso dell’ultimo anno abbiamo assistito al selvaggio West dei Large Language Models (LLM). Il ritmo con cui sono state rilasciate nuove tecnologie e modelli è stato sorprendente! Di conseguenza, abbiamo molti standard e modi diversi di lavorare con i LLM.

In questo articolo esploreremo uno di questi argomenti, ovvero il caricamento del tuo LLM locale attraverso diversi standard (di quantizzazione). Con lo sharding, la quantizzazione e le diverse strategie di salvataggio e compressione, non è facile sapere quale metodo è adatto a te.

Negli esempi utilizzeremo Zefiro 7Buna variante perfezionata del Mistral 7B con cui è stato addestrato Ottimizzazione diretta delle preferenze (DPO).

🔥 MANCIA: dopo ogni esempio di caricamento di un LLM, si consiglia di riavviare il notebook per evitare errori OutOfMemory. Il caricamento di più LLM richiede RAM/VRAM significativa. Puoi reimpostare la memoria eliminando i modelli e reimpostando la cache in questo modo:

# Delete any models previously created
del model, tokenizer, pipe# Empty VRAM cache
import torch
torch.cuda.empty_cache()

Puoi anche seguire insieme al Taccuino di Google Colab per assicurarsi che tutto funzioni come previsto.

Il modo più semplice e semplice per caricare il tuo LLM è tramite 🤗 Trasformatori. HuggingFace ha creato un’ampia suite di pacchetti che ci consentono di fare cose straordinarie con i LLM!

Inizieremo installando HuggingFace, tra gli altri, dal suo ramo principale per supportare i modelli più recenti:

# Latest HF transformers version for Mistral-like models
pip install git+https://github.com/huggingface/transformers.git
pip install accelerate bitsandbytes xformers

Dopo l’installazione, possiamo utilizzare la seguente pipeline per caricare facilmente il nostro LLM:

from torch import bfloat16
from transformers import pipeline# Load in your LLM without any compression tricks
pipe = pipeline(
"text-generation", 
model="HuggingFaceH4/zephyr-7b-beta", 
torch_dtype=bfloat16, 
device_map="auto"
)

Fonte: towardsdatascience.com

Categorie

Esplorazione di modelli linguistici di grandi dimensioni prequantizzati

Lascia un commento Annulla risposta

Articoli Correlati

Ultimi post

L'intelligenza artificiale raggiunge lo standard della medaglia d'argento risolvendo i problemi delle Olimpiadi Matematiche Internazionali | Intelligenza-Artificiale

Mistral Large 2: il Davide contro i Golia delle Big Tech | Intelligenza-Artificiale

Le 5 migliori directory di strumenti di intelligenza artificiale: scopri e mostra le innovazioni dell'intelligenza artificiale | Intelligenza-Artificiale

WAF basati sull'intelligenza artificiale vs firewall tradizionali: proteggere le applicazioni web | Intelligenza-Artificiale

Informazioni

Seguici

Esplorazione di modelli linguistici di grandi dimensioni prequantizzati

Lascia un commento Annulla risposta

Articoli Correlati