Marlin: velocità di inferenza quasi ideale per modelli linguistici di grandi dimensioni a 4 bit

 | Intelligenza-Artificiale

Fino a 4 volte più veloce dell'inferenza con parametri fp16

Generato con DALL-E

I modelli linguistici di grandi dimensioni (LLM) sono spesso troppo grandi per essere utilizzati direttamente sull'hardware consumer. Per ridurne le dimensioni, sono state proposte varie tecniche per quantizzare gli LLM e ridurre il consumo di memoria. Mentre i recenti algoritmi per la quantizzazione a 4 bit sono spesso…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *