Quantizzazione e co. Ridurre dell'80% i tempi di inferenza sugli LLM | di Christopher Karg | Ottobre 2023 | Intelligenza-Artificiale

12 minuti di lettura

14 ore fa

Fonte: https://www.pexels.com/photo/cropland-in-autumn-18684338/

La quantizzazione è una tecnica utilizzata per una serie di algoritmi diversi, ma ha guadagnato prevalenza con l’afflusso abbastanza recente di Large Language Models (LLM). In questo articolo, mi propongo di fornire informazioni sulla quantizzazione degli LLM e sull’impatto che questa tecnica può avere sull’esecuzione locale di questi modelli. Tratterò una strategia diversa al di fuori della quantizzazione che può ridurre ulteriormente i requisiti computazionali per l’esecuzione di questi modelli. Continuerò a spiegare perché queste tecniche potrebbero interessarti e ti mostrerò alcuni benchmark con esempi di codice sull’efficacia di queste tecniche. Tratterò anche brevemente i requisiti/consigli hardware e gli strumenti moderni a tua disposizione per raggiungere i tuoi obiettivi LLM sulla tua macchina. In un articolo successivo ho intenzione di fornire istruzioni dettagliate e codice per mettere a punto il tuo LLM, quindi tienilo d’occhio.

TL;DR — quantizzando il nostro LLM e modificando il tensore dtypesiamo in grado di eseguire inferenza su un LLM con il doppio dei parametri riducendo allo stesso tempo L’ora del muro dell’80%.

Come sempre, se desideri discutere di qualsiasi argomento trattato qui, per favore raggiungere.

Tutte le opinioni in questo articolo sono mie. Questo articolo non è sponsorizzato.

La quantizzazione ci consente di ridurre le dimensioni delle nostre reti neurali convertendo i pesi e i bias della rete dal formato in virgola mobile originale (ad esempio 32 bit) a un formato di precisione inferiore (ad esempio 8 bit). Il formato in virgola mobile originale può variare in base a diversi fattori quali l’architettura del modello e i processi di training. Lo scopo ultimo della quantizzazione è ridurre le dimensioni del nostro modello, riducendo così i requisiti di memoria e di calcolo per eseguire l’inferenza e addestrare il nostro modello. La quantizzazione può diventare molto complicata se si tenta di quantizzare i modelli da soli. Ciò dipende in gran parte dalla mancanza di supporto hardware da parte di determinati fornitori. Per fortuna questo può essere aggirato attraverso l’uso di servizi e software specifici di terze parti.

Personalmente ho dovuto fare un bel po’ di passaggi per quantizzare LLM come Llama-2 di Meta sul mio Mac. Ciò dipende in gran parte dalla mancanza di supporto per le librerie standard (o qualsiasi cosa con kernel CUDA personalizzati). Strumenti di terze parti come…

Fonte: towardsdatascience.com