QA-LoRA: perfeziona un modello linguistico di grandi dimensioni quantizzato sulla tua GPU | Intelligenza-Artificiale

Indice contenuti

Ottimizzazione sensibile alla quantizzazione

Illustrazione dell’autore — Realizzata con immagini da Pixabay (1,2)

I modelli di linguaggio di grandi dimensioni (LLM) all’avanguardia sono pre-addestrati con miliardi di parametri. Sebbene i LLM pre-formati possano svolgere molte attività, possono migliorare molto una volta perfezionati.

Grazie a LoRA, i costi di messa a punto possono essere drasticamente ridotti. LoRA aggiunge tensori di basso rango, ovvero un piccolo numero di parametri (milioni), oltre ai parametri originali congelati. Durante la messa a punto vengono addestrati solo i parametri nei tensori aggiunti.

LoRA richiede ancora che il modello sia caricato in memoria. Per ridurre il costo della memoria e accelerare la messa a punto, un nuovo approccio propone la messa a punto LoRA (QA-LoRA) sensibile alla quantizzazione.

In questo articolo spiego QA-LoRA e ne analizzo le prestazioni rispetto al lavoro precedente (in particolare QLoRA). Mostro anche come utilizzare QA-LoRA per ottimizzare il tuo LoRA sensibile alla quantizzazione per Llama 2.

La messa a punto di LoRA su un LLM quantizzato è qualcosa che può già essere fatto con QLoRA. Nei miei articoli precedenti, l’ho usato molte volte per mettere a punto LLM, ad esempio Llama 2 e GPT-NeoX, sul mio computer desktop o utilizzando l’istanza gratuita di Google Colab.

Prima di approfondire QA-LoRA, è interessante capire quali sono gli attuali limiti di QLoRA.

La quantizzazione NormalFloat4 (NF4).

Gli algoritmi di quantizzazione LLM solitamente quantizzano i parametri con una precisione di 4 bit utilizzando il tipo di dati INT4. Il calcolo con questo tipo di dati è sempre più ottimizzato con le GPU recenti.

QLoRA non utilizza INT4 per impostazione predefinita ma un altro tipo di dati chiamato NormalFloat4 (NF4). Puoi vederlo come un numero float compresso. Secondo gli autori di QLoRANF4 è superiore a INT4. Gli LLM quantizzati con NF4 raggiungono una perplessità inferiore.

Tuttavia, il calcolo NF4 non è ottimale per l’inferenza rapida. Questo è uno dei motivi per cui…

Fonte: towardsdatascience.com