Confronto delle prestazioni tra questi modelli per quanto riguarda l’accuratezza e il tempo di risposta in una configurazione di risposta alle domande RAG.
Con l’introduzione del modello linguistico open source Mistral 7B da parte della startup francese Mistral, le prestazioni mozzafiato dimostrate da modelli proprietari come ChatGPT e claude.ai sono diventate disponibili anche per la comunità open source. Per esplorare la fattibilità dell’utilizzo di questo modello su sistemi con risorse limitate, il suo quantizzato le versioni hanno dimostrato di mantenere ottime prestazioni.
Anche se il modello Mistral 7B quantizzato a 2 bit ha superato il test di precisione a pieni voti nel nostro studio precedenteci volevano in media circa 2 minuti per rispondere alle domande su un Mac. Inserisci TinyLlama (1), un modello linguistico compatto da 1.1B preaddestrato su 3 trilioni di token con la stessa architettura e tokenizzatore di Llama 2. È rivolto ad ambienti con risorse più limitate.
In questo articolo, confronteremo la precisione e le prestazioni in termini di tempo di risposta delle capacità di risposta alle domande del Mistral 7B quantizzato rispetto al TinyLlama 1.1B quantizzato in una configurazione RAG (ensemble Retrieval-Augmented Generation).
Contenuti
Tecnologie abilitanti
Architettura di sistema
Configurazione dell’ambiente
Implementazione
Risultati e discussioni
Pensieri finali
Questo test verrà condotto su un MacBook Air M1 con 8 GB di RAM. A causa delle risorse di calcolo e di memoria limitate, stiamo adottando versioni quantizzate di questi LLM. In sostanza, la quantizzazione implica la rappresentazione dei parametri del modello utilizzando meno bit, il che comprime effettivamente il modello. Questa compressione comporta un utilizzo ridotto della memoria, tempi di esecuzione più rapidi e una maggiore efficienza energetica, ma a scapito della precisione. Per questo studio utilizzeremo i modelli Mistral 7B Instruct quantizzato a 2 bit e TinyLlama 1.1B Chat quantizzato a 5 bit nel formato GGUF. GGUF è un formato binario progettato per il caricamento e il salvataggio rapidi dei modelli. Per caricare un modello GGUF di questo tipo, utilizzeremo il file llama-cpp-python
biblioteca, che è una…
Fonte: towardsdatascience.com