Marlin: velocità di inferenza quasi ideale per modelli linguistici di grandi dimensioni a 4 bit | Intelligenza-Artificiale

Fino a 4 volte più veloce dell'inferenza con parametri fp16

I modelli linguistici di grandi dimensioni (LLM) sono spesso troppo grandi per essere utilizzati direttamente sull'hardware consumer. Per ridurne le dimensioni, sono state proposte varie tecniche per quantizzare gli LLM e ridurre il consumo di memoria. Mentre i recenti algoritmi per la quantizzazione a 4 bit sono spesso…

Fonte: towardsdatascience.com