La storia dei LLM open source: modelli base migliori (parte seconda) | di Cameron R. Wolfe, Ph.D. | Novembre 2023 | Intelligenza-Artificiale

In che modo LLaMA, MPT, Falcon e LLaMA-2 mettono sulla mappa i LLM open source…

(Fotografato da Inaki del Olmo SU Unsplash)

La ricerca open source sui modelli linguistici di grandi dimensioni (LLM) è incredibilmente preziosa, poiché mira a democratizzare una tecnologia potente e influente. Sebbene i LLM open source siano ormai comunemente utilizzati e ampiamente studiati, quest’area di ricerca ha visto alcune difficoltà iniziali difficili da superare. Vale a dire, i LLM open source all’inizio hanno funzionato male e sono stati pesantemente criticati. All’interno di questa panoramica, studieremo una linea di ricerca che ha cambiato questa narrazione rendendo disponibili a tutti LLM pre-formati ad alte prestazioni. Dato che la formazione preliminare di un modello linguistico è così costosa, i modelli che studieremo qui sono particolarmente efficaci. Dopo che questi modelli base ad alte prestazioni sono stati creati e rilasciati, molte persone potrebbero condurre ricerche utilizzando questi modelli a un costo aggiuntivo marginale.

“Le capacità dei LLM sono notevoli considerando la natura apparentemente semplice della metodologia di formazione.” — da (14)

La serie attuale. Questa panoramica è la seconda parte di una serie in tre parti sulla storia dei LLM open source. IL prima parte nella serie sono stati esaminati i tentativi iniziali di creazione di LLM open source. Qui studieremo i modelli base open source più popolari (ovvero modelli linguistici che sono stati pre-addestrati ma non perfezionati o allineati) attualmente disponibili. La prossima volta esamineremo come questi modelli possono essere perfezionati o allineati per creare una varietà di applicazioni utili.

Nella prima parte di questa serie, abbiamo visto che i primi giorni di ricerca sui LLM open source hanno portato alla proposta di diversi importanti modelli base, come OPT e BLOOM. Tuttavia, si ritiene che questi modelli abbiano prestazioni piuttosto scarse rispetto ai modelli pre-addestrati di origine chiusa (ad esempio, GPT-3). Come risolviamo questo problema? Innanzitutto, dobbiamo dare uno sguardo più approfondito al processo di formazione LLM.

Conduttura della formazione. La formazione dei LLM avviene in più fasi, come mostrato nella figura seguente. Innanzitutto, pre-addestriamo il modello…

Fonte: towardsdatascience.com