La storia dei LLM open source: i primi giorni (prima parte) | di Cameron R. Wolfe, Ph.D. | Novembre 2023 | Intelligenza-Artificiale

Comprendere GPT-Neo, GPT-J, GLM, OPT, BLOOM e altro ancora…

(Fotografato da Chris Lawton SU Unsplash)

La ricerca sulla modellazione del linguaggio ha una lunga storia che risale a modelli come GTP e GPT-2 o anche a tecniche basate su RNN (ad esempio, ULMFit) che precedono i moderni modelli linguistici basati sui trasformatori. Nonostante questa lunga storia, tuttavia, i modelli linguistici sono diventati popolari solo in tempi relativamente recenti. Il primo aumento di popolarità è arrivato con la proposta di GPT-3 (1), che ha dimostrato che è possibile ottenere impressionanti prestazioni di apprendimento in poche riprese in molti compiti attraverso una combinazione di pre-formazione autosupervisionata e apprendimento in contesto; vedi sotto.

Successivamente, il riconoscimento ottenuto da GPT-3 ha portato alla proposta di una serie di modelli linguistici di grandi dimensioni (LLM). Poco dopo, la ricerca sull’allineamento dei modelli linguistici ha portato alla creazione di modelli ancora più impressionanti come InstructGPT (19) e, in particolare, il suo modello gemello ChatGPT. Le prestazioni impressionanti di questi modelli hanno portato a un’ondata di interesse per la modellazione del linguaggio e l’intelligenza artificiale generativa.

Nonostante siano incredibilmente potenti, molti dei primi sviluppi nella ricerca LLM hanno una proprietà comune: sono a fonte chiusa. Quando i modelli linguistici iniziarono ad ottenere un ampio riconoscimento, molti dei LLM più potenti erano accessibili solo tramite API a pagamento (ad esempio, il API OpenAI) e la capacità di ricercare e sviluppare tali modelli era limitata a individui o laboratori selezionati. Un simile approccio è nettamente diverso dalle tipiche pratiche di ricerca sull’intelligenza artificiale, in cui l’apertura e la condivisione delle idee sono solitamente incoraggiate per promuovere il progresso.

“Questo accesso limitato ha limitato la capacità dei ricercatori di comprendere come e perché funzionano questi grandi modelli linguistici, ostacolando i progressi negli sforzi per migliorarne la robustezza e mitigare problemi noti come pregiudizi e tossicità”. — da (4)

Questa panoramica. Nonostante l’enfasi iniziale sulla tecnologia proprietaria, la comunità di ricerca LLM iniziò lentamente a creare varianti open source di modelli linguistici popolari come GPT-3. Sebbene i primi modelli linguistici open source siano rimasti indietro rispetto ai migliori modelli proprietari, hanno gettato le basi per…

Fonte: towardsdatascience.com