Ottimizzazione supervisionata (SFT) con modelli linguistici di grandi dimensioni | di Cameron R. Wolfe, Ph.D. | Gennaio 2024 | Intelligenza-Artificiale

Capire come funziona SFT dall’idea all’implementazione funzionante…

I modelli linguistici di grandi dimensioni (LLM) vengono generalmente formati in più fasi, tra cui la preformazione e diverse fasi di perfezionamento; vedi sotto. Sebbene la formazione preliminare è costosa (vale a dire, diverse centinaia di migliaia di dollari in termini di calcolo), mettere a punto un LLM (o eseguire l’apprendimento in contesto) è economico in confronto (vale a dire, diverse centinaia di dollari, o meno). Dato che i LLM pre-addestrati di alta qualità (ad esempio MPT, Falcon o LLAMA-2) sono ampiamente disponibili e gratuiti da utilizzare (anche a livello commerciale), possiamo creare una varietà di potenti applicazioni ottimizzando i LLM su attività rilevanti.

Diverse fasi della formazione di un LLM (creato dall’autore)

Una delle forme di fine tuning più utilizzate per gli LLM nell’ambito della recente ricerca sull’intelligenza artificiale è il fine tuning supervisionato (SFT). Questo approccio cura un set di dati di risultati LLM di alta qualità su cui il modello viene messo a punto direttamente utilizzando un obiettivo di modellazione del linguaggio standard. SFT è semplice ed economico da usare ed è uno strumento utile per allineare i modelli linguistici, che lo ha reso popolare all’interno della comunità di ricerca LLM open source e oltre. All’interno di questa panoramica, illustreremo l’idea alla base di SFT, esamineremo la ricerca pertinente su questo argomento e forniremo esempi di come i professionisti possono utilizzare facilmente SFT con solo poche righe di codice Python.

Per acquisire una comprensione approfondita della SFT, dobbiamo avere una conoscenza di base dei modelli linguistici (e del deep learning in generale). Esaminiamo alcune informazioni di base rilevanti e aggiorniamo brevemente alcune idee che saranno importanti.

Nozioni di base sull’intelligenza artificiale. A mio parere, la migliore risorsa per conoscere l’intelligenza artificiale e i fondamenti del deep learning è il Deep Learning pratico per programmatori ovviamente da veloce.ai. Questo corso è estremamente pratico e orientato dall’alto verso il basso, il che significa che impari prima come implementare le idee nel codice e utilizzare tutti gli strumenti pertinenti, quindi approfondire i dettagli in seguito per capire come funziona il tutto. Se sei nuovo nel settore e desideri acquisire rapidamente una conoscenza pratica degli strumenti relativi all’intelligenza artificiale, come utilizzarli e…

Fonte: towardsdatascience.com