LoRA ma 100 volte più piccolo

Generato con DALL-E

LoRA ottimizza i modelli linguistici di grandi dimensioni (LLM) aggiungendo un adattatore sopra il LLM pre-addestrato, con solo questo adattatore che può essere addestrato mentre i parametri originali del LLM rimangono congelati. Questo approccio riduce significativamente il numero di parametri che devono essere addestrati, risultando in stati dell'ottimizzatore molto più piccoli. Di conseguenza, la messa a punto di LoRA…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *