A causa dell’aumento di interesse per i modelli linguistici di grandi dimensioni (LLM), ai professionisti dell’intelligenza artificiale vengono comunemente poste domande come: Come possiamo formare un LLM specializzato sui nostri dati? Tuttavia, rispondere a questa domanda è tutt’altro che semplice. I recenti progressi nell'intelligenza artificiale generativa sono alimentati da modelli massicci con molti parametri e l'addestramento di un LLM di questo tipo richiede hardware costoso (ad esempio, molte GPU costose con molta memoria) e tecniche di addestramento fantasiose (ad esempio, training parallelo dei dati completamente condivisi). Fortunatamente, questi modelli vengono solitamente addestrati in due fasi: pre-allenamento E ritocchi — dove la prima fase è (molto) più costosa. Dato che i LLM preaddestrati di alta qualità sono prontamente disponibili online, la maggior parte dei professionisti dell'intelligenza artificiale può semplicemente scaricare un modello preaddestrato e concentrarsi sull'adattamento di questo modello (tramite messa a punto) al compito desiderato.
“La messa a punto di enormi modelli linguistici è proibitivamente costosa in termini di hardware richiesto e di costi di archiviazione/cambio per ospitare istanze indipendenti per attività diverse.” — da (1)
Tuttavia, la dimensione del modello non cambia durante la messa a punto! Di conseguenza, mettere a punto un LLM: anche se più economico del pre-allenamento – non è facile. Abbiamo ancora bisogno di tecniche di addestramento e di hardware in grado di gestire un modello del genere. Inoltre, ogni esecuzione di messa a punto crea una “copia” completamente separata del LLM che dobbiamo archiviare, mantenere e distribuire: questo può diventare rapidamente complicato e costoso!
come lo aggiustiamo? All'interno di questa panoramica, conosceremo una soluzione popolare ai problemi sopra delineati: messa a punto efficiente dei parametri. Invece di addestrare l'intero modello end-to-end, l'ottimizzazione dei parametri lascia fissi i pesi del modello preaddestrato e adatta solo un numero limitato di parametri specifici dell'attività durante l'ottimizzazione. Un approccio di questo tipo riduce drasticamente il sovraccarico della memoria, semplifica il processo di archiviazione/distribuzione e ci consente di ottimizzare gli LLM con hardware più accessibile. Sebbene la panoramica includa molte tecniche (ad esempio, ottimizzazione dei prefissi e livelli di adattatore), la nostra attenzione sarà focalizzata sull'adattamento di basso rango (LoRA) (1), un approccio semplice e ampiamente utilizzato per ottimizzare in modo efficiente gli LLM.
Fonte: towardsdatascience.com