Verso una valutazione imparziale di grandi modelli linguistici |  di Donato Riccio |  Dicembre 2023

 | Intelligenza-Artificiale

In che modo la perdita di benchmark e la contaminazione dei dati minano la valutazione degli LLM

Immagine dell’autore. (assistito dall’intelligenza artificiale)

“Il nostro nuovo LLM batte GPT in ogni benchmark!”

Sta diventando sempre più comune sentire affermazioni audaci come questa, poiché l’hype attorno ai LLM è enorme. Ci sono nuovi modelli ogni settimana e attualmente tutti cercano di competere con GPT-4, che è ancora il LLM più potente.

Il benchmarking è una parte fondamentale della valutazione dei progressi nei modelli linguistici di grandi dimensioni.

Benchmark come MMLU E Hella Swag sono lo standard per valutare i modelli linguistici su abilità come il ragionamento e la comprensione. I punteggi forniscono un’istantanea dei progressi, con nuovi risultati all’avanguardia annunciati come scoperte rivoluzionarie. Gli LLM vengono solitamente valutati in un contesto zero-shot, senza una formazione esplicita sul set di test, per valutare le loro capacità generali.

Questo articolo mostra quanto sia facile manipolare i risultati dei benchmark e offre suggerimenti per mantenere l’integrità della valutazione.

Il problema dei benchmark

Spesso i benchmark non riflettono l’utilità negli scenari di vita reale. Il modello più recente di Google, Gemini Ultra, segna Il 90,04% sono MMLU. Sebbene si tratti di un punteggio impressionante, osservando più da vicino la metodologia di valutazione, lo è CoT@32 (catena di pensiero con 32 campioni). Significa che dobbiamo chiedere 32 volte per ottenere una precisione del 90%! La maggior parte di noi si aspetta una risposta accurata al primo tentativo, soprattutto quando interagisce con un chatbot.

Rapporto tecnico di Google Gemini. (1)

Purtroppo, questo problema è solo la punta dell’iceberg della valutazione degli LLM.

Nell’apprendimento automatico, i modelli vengono comunemente valutati misurando le loro prestazioni su un set di test che non è stato utilizzato durante l’addestramento. In genere, questo processo consente una stima imparziale di come il modello si generalizzerà ai nuovi dati.

Perdita di benchmark e contaminazione dei dati sono due termini che si riferiscono entrambi a una questione preoccupante: quando i dati del test in qualche modo trapelano nei dati di preformazione degli LLM, portando a prestazioni gonfiate. Rende i confronti tra LLM ingiusti e…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *