Come i modelli base di alta qualità aprono nuove possibilità per un intero settore…

(Fotografato da Raimond Klavins SU Unsplash)

Recentemente, abbiamo esaminato molte ricerche attuali sulla creazione di modelli linguistici di grandi dimensioni (LLM) open source. In tutto questo lavoro, i modelli vengono creati utilizzando una struttura comune con pochi semplici componenti; vedi sotto.

Processo in più fasi per creare e perfezionare un LLM (da (12, 13))

Sebbene questo quadro preveda diversi passaggi, il primo passaggio è probabilmente il più importante. La creazione di un modello base più potente tramite una formazione preliminare estesa e di alta qualità consente risultati migliori quando il LLM viene perfezionato tramite la messa a punto supervisionata (SFT) e l’apprendimento di rinforzo dal feedback umano (RLHF). Quindi, le applicazioni a valle risultano migliori grazie all’uso di un modello migliorato. Il modello pre-addestrato (base) è il punto di partenza comune per qualsiasi applicazione LLM.

Fino a poco tempo fa, i modelli di base open source funzionavano male rispetto alle loro controparti proprietarie o potevano essere utilizzati solo per la ricerca. Tuttavia, la situazione è cambiata con il rilascio di MPT-7B e MPT-30B (1, 2) da parte di MosaicML. Questi modelli di base open source raggiungono livelli di prestazioni impressionanti, sono gratuiti per uso commerciale e vengono forniti con un’intera suite di software efficienti per la formazione, la messa a punto e la valutazione dei LLM. Questi strumenti open source consentono di esplorare un’ampia varietà di casi d’uso specializzati per i LLM a un costo notevolmente ridotto, rendendoli una potente risorsa per i professionisti dell’intelligenza artificiale.

I modelli MPT-7B/30B si basano su un tipico trasformatore solo decoder architettura. Tuttavia, vengono apportate alcune modifiche chiave, tra cui:

All’interno di questa sezione, impareremo ciascuno di questi componenti, come funzionano e il loro impatto sui LLM. Per comprendere appieno i dettagli di questa sezione, potrebbe essere utile rivedere i seguenti concetti:

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *