In qualità di scienziato dei dati, ho dedicato numerose ore ad approfondire le complessità dei Large Language Models (LLM) come BERTGPT{2,3,4}, E ChatGPT. Questi modelli avanzati si sono notevolmente ampliati in termini di dimensioni, rendendo sempre più difficile il funzionamento degli ultimi modelli ad alte prestazioni su apparecchiature di consumo standard. Purtroppo a casa mia non ho ancora a disposizione una macchina 8x A100.
Non ho (ancora) una macchina 8x A100 a casa
Negli ultimi anni è stata utilizzata una nuova tecnica per realizzare modelli più piccoli e più veloci: la quantizzazione. Questo metodo riduce elegantemente i LLM, un tempo ingombranti, a una dimensione maggiore digeribile per hardware di livello consumer. È come sottoporre questi giganti dell’intelligenza artificiale a una dieta digitale, facendoli adattarsi comodamente ai confini più modesti dei nostri computer domestici. Nel frattempo, la comunità open source, con pionieri come 🤗 HuggingFace e 🦄 Mistral, è stata determinante nel democratizzare l’accesso a questi modelli. Essenzialmente hanno trasformato l’esclusivo club dell’intelligenza artificiale in un festival tecnologico del tipo “vieni uno, vieni tutto” — non è richiesta alcuna stretta di mano segreta!
Anche se i pesi dei modelli addestrati con istruzioni rappresentano un pezzo significativo del puzzle, non costituiscono il quadro completo. Pensa a questi pesi come al cervello dell’operazione: essenziale, ma incompleto senza un corpo. È qui che entra in gioco il cosiddetto wrapper, che funge da arti che consentono al modello di elaborare i nostri suggerimenti. E non dimentichiamoci che, per dare davvero vita a questo spettacolo di intelligenza artificiale, in genere abbiamo bisogno della potenza degli acceleratori hardware, come una GPU. È come avere un’auto sportiva (il modello) senza un motore turbo (la GPU): certo, ha un bell’aspetto, ma non vincerai nessuna gara! 🚗💨💻
In questo articolo ti mostrerò come eseguire query su vari modelli linguistici di grandi dimensioni localmente, direttamente dal tuo laptop. Funziona su Windows, Mac e persino Linux (beta). È basato su chiamata.cppquindi supporta non solo la CPU, ma anche acceleratori comuni come CUDA e Metal.
Nella prima sezione installeremo il programma per elaborare e gestire le richieste per vari modelli. La seconda sezione ti aiuterà a iniziare rapidamente e nell’ultima sezione fornirò alcuni suggerimenti sui modelli da utilizzare. Quindi iniziamo!
Fonte: towardsdatascience.com