La proposta della suite LLaMA (2) di modelli linguistici di grandi dimensioni (LLM) ha portato a un aumento delle pubblicazioni sul tema dei LLM open source. In molti casi, l’obiettivo di questi lavori era quello di produrre a basso costo LLM più piccoli e open source (per scopi di ricerca) che avessero una qualità paragonabile a modelli proprietari come ChatGPT E GPT-4. Questi modelli adottano una strategia di imitazione, che mette a punto un LLM di base sui dati di dialogo sintetico di un LLM più potente. Nonostante siano economici da addestrare, questi modelli sembravano funzionare in modo paragonabile ai LLM proprietari come ChatGPT. Di conseguenza, la comunità di ricerca sul deep learning ha rapidamente adottato l’idea che i LLM open source governeranno il futuro: riprodurre varianti open source di modelli proprietari è stato semplice ed economico!
“I LLM più potenti saranno closed-source o saranno distribuiti liberamente affinché chiunque possa utilizzarli, modificarli ed estenderli?” — da (1)
Sfortunatamente, le valutazioni preliminari eseguite su questi modelli, che si basavano su valutazioni fornite da altri LLM (ad esempio, GPT-4) o lavoratori della folla umana, erano piuttosto superficiali. Le prestazioni dei modelli di imitazione corrispondono effettivamente a quelle di modelli come ChatGPT? Per rispondere a questa domanda in modo più rigoroso, studieremo una recente ricerca che analizza se i modelli di imitazione rimuovono davvero il “fossato” attorno agli LLM proprietari. È interessante notare che vedremo che queste riproduzioni economiche di potenti LLM funzionano bene nelle valutazioni umane grazie alla loro capacità di apprendere lo stile di un potente LLM. Tuttavia, mancano di fattualità e ottengono scarsi risultati se sottoposti a valutazioni più ampie e mirate. In realtà, i modelli di imitazione non funzionano altrettanto bene dei modelli proprietari come ChatGPT.
“La premessa dell’imitazione del modello è che una volta che un LM proprietario viene reso disponibile tramite API, è possibile raccogliere un set di dati di output API e utilizzarlo per mettere a punto un LM open source.” — da (1)
Fonte: towardsdatascience.com