Siamo in grado di eseguire inferenze e mettere a punto i nostri LLM utilizzando l’hardware nativo di Apple. Questo articolo tratterà la configurazione per creare i tuoi esperimenti ed eseguire l’inferenza. In futuro scriverò un articolo su come ottimizzare questi LLM (sempre utilizzando l’hardware Apple).
Se non hai letto i miei articoli precedenti, ti suggerisco di farlo perché spiego perché dovresti prendere in considerazione l’hosting (e ritocchi) il tuo LLM open source. Copro anche le strategie su come puoi farlo ottimizzare il processo ridurre i tempi di inferenza e training. Tratterò argomenti come la quantizzazione poiché questi sono trattati in modo approfondito negli articoli sopra menzionati.
Utilizzerò il mlx quadro in combinazione con Il modello Llama2 di Meta. Informazioni approfondite su come accedere ai modelli le trovate nel mio articolo precedente. Tuttavia, ti spiegherò brevemente come farlo anche in questo articolo.
Iniziamo.
- Una macchina con un chip della serie M (M1/M2/M3)
- Sistema operativo >= 13.0
- Python tra 3.8–3.11
Per la mia configurazione hardware personale, utilizzo un MacBook Pro con un chip M1 Max: 64 GB di RAM // CPU a 10 core // GPU a 32 core.
Il mio sistema operativo è Sonoma 14.3 // Python è 3.11.6
Finché soddisfi i 3 requisiti sopra elencati, dovresti essere in grado di proseguire. Se hai circa 16 GB di RAM, ti suggerisco di restare con i modelli 7B. I tempi di inferenza ecc. varieranno ovviamente a seconda delle specifiche hardware.
Sentiti libero di seguire e impostare una directory in cui memorizzerai tutti i file relativi a questo articolo. Renderà il processo molto più semplice se sono tutti in un unico posto. Chiamo il mio mlx.
Per prima cosa dobbiamo assicurarci che tu stia utilizzando una versione nativa di Python. Altrimenti non saremo in grado di installare mlx. Puoi farlo eseguendo il seguente comando nel tuo terminale:
python -c "import platform; print(platform.processor())"
Fonte: towardsdatascience.com