Puoi trovare il codice in questo repository GitHub:
https://github.com/amirarsalan90/personal_llm_assistant
I componenti principali dell'app includono:
Llama-cpp-python è un collegamento Python per il grande llama.cpp , che implementa molti modelli linguistici di grandi dimensioni in C/C++ . A causa della sua ampia adozione da parte della comunità open source, ho deciso di utilizzarlo in questo tutorial.
Nota: ho testato questa app su un sistema con GPU Nvidia RTX4090.
Per prima cosa, creiamo un nuovo ambiente conda:
conda create --name assistant python=3.10
conda activate assistant
Successivamente dobbiamo installare llama-cpp-python. Come accennato in lama-cpp-python descrizioni, llama.cpp supporta una serie di backend di accelerazione hardware per accelerare l'inferenza. Per sfruttare la GPU ed eseguire il LLM su GPU, costruiremo il programma con CUBLAS. Ho avuto alcuni problemi con lo scarico del modello sulla GPU e finalmente l'ho trovato questo post su come installare correttamente:
export CMAKE_ARGS="-DLLAMA_CUBLAS=on"
export FORCE_CMAKE=1
pip install --upgrade --force-reinstall llama-cpp-python --no-cache-dir
pip install llama-cpp-python(server)
Fonte: towardsdatascience.com