LLM per tutti: esecuzione dell'inferenza sulla generazione di testo di HuggingFace in Google Colab | di Dmitrii Eliuseev | Gennaio 2024 | Intelligenza-Artificiale

Indice contenuti

Sperimentazione gratuita con modelli linguistici di grandi dimensioni (Parte 3)

Nel prima parte Della storia, abbiamo utilizzato un’istanza gratuita di Google Colab per eseguire un modello Mistral-7B ed estrarre informazioni utilizzando il database FAISS (Facebook AI Similarity Search). Nel seconda parte della storia, abbiamo utilizzato un modello LLaMA-13B e una libreria LangChain per fare una chat con riepilogo del testo e altre funzionalità. In questa parte mostrerò come utilizzare un HuggingFace 🤗 Inferenza sulla generazione del testo (TGI). TGI è un toolkit che ci consente di eseguire un modello linguistico di grandi dimensioni (LLM) come servizio. Come nelle parti precedenti, lo testeremo nell’istanza di Google Colab, in modo completamente gratuito.

Inferenza sulla generazione del testo

Text Generation Inference (TGI) è un toolkit pronto per la produzione per la distribuzione e la gestione di modelli linguistici di grandi dimensioni (LLM). L’esecuzione di LLM come servizio ci consente di utilizzarlo con diversi client, dai notebook Python alle app mobili. È interessante testare la funzionalità del TGI, ma si è scoperto che i requisiti di sistema sono piuttosto elevati e non tutto funziona così bene come previsto:

Un’istanza gratuita di Google Colab fornisce solo 12,7 GB di RAM, che spesso non sono sufficienti per caricare un modello da 13B o addirittura 7B “tutto intero”. IL AutoModelForCausalLM di HuggingFace ci consente di utilizzare modelli “sharded” suddivisi in parti più piccole. Funziona bene in Python, ma per qualche motivo questa funzionalità non funziona in TGI e l’istanza si blocca con un errore di “memoria insufficiente”.
La dimensione della VRAM può essere un secondo problema. Nei miei test con TGI v1.3.4, la quantizzazione a 8 bit funzionava bene con a bitsandbytes libreria, ma la quantizzazione a 4 bit (bitsandbytes-nf4 opzione) non ha funzionato. L’ho verificato in particolare in Colab Pro sulla GPU NVIDIA A100 da 40 GB; anche con bitsandbytes-nf4 O bitsandbytes-fp4 abilitato, la dimensione VRAM richiesta era 16,4 GB, che è troppo alta per un’istanza Colab gratuita (e anche per gli utenti Colab Pro, il prezzo di utilizzo di NVIDIA A100 da 40 GB è 2-4 volte superiore rispetto a NVIDIA T4 da 16 GB).
TGI necessita dell’installazione di Rust. Un’istanza gratuita di Google Colab non dispone di un terminale completo, quindi anche l’installazione corretta è una sfida.

Fonte: towardsdatascience.com