“Il nostro nuovo LLM batte GPT in ogni benchmark!”
Sta diventando sempre più comune sentire affermazioni audaci come questa, poiché l’hype attorno ai LLM è enorme. Ci sono nuovi modelli ogni settimana e attualmente tutti cercano di competere con GPT-4, che è ancora il LLM più potente.
Il benchmarking è una parte fondamentale della valutazione dei progressi nei modelli linguistici di grandi dimensioni.
Benchmark come MMLU E Hella Swag sono lo standard per valutare i modelli linguistici su abilità come il ragionamento e la comprensione. I punteggi forniscono un’istantanea dei progressi, con nuovi risultati all’avanguardia annunciati come scoperte rivoluzionarie. Gli LLM vengono solitamente valutati in un contesto zero-shot, senza una formazione esplicita sul set di test, per valutare le loro capacità generali.
Questo articolo mostra quanto sia facile manipolare i risultati dei benchmark e offre suggerimenti per mantenere l’integrità della valutazione.
Il problema dei benchmark
Spesso i benchmark non riflettono l’utilità negli scenari di vita reale. Il modello più recente di Google, Gemini Ultra, segna Il 90,04% sono MMLU. Sebbene si tratti di un punteggio impressionante, osservando più da vicino la metodologia di valutazione, lo è CoT@32 (catena di pensiero con 32 campioni). Significa che dobbiamo chiedere 32 volte per ottenere una precisione del 90%! La maggior parte di noi si aspetta una risposta accurata al primo tentativo, soprattutto quando interagisce con un chatbot.
Purtroppo, questo problema è solo la punta dell’iceberg della valutazione degli LLM.
Nell’apprendimento automatico, i modelli vengono comunemente valutati misurando le loro prestazioni su un set di test che non è stato utilizzato durante l’addestramento. In genere, questo processo consente una stima imparziale di come il modello si generalizzerà ai nuovi dati.
Perdita di benchmark e contaminazione dei dati sono due termini che si riferiscono entrambi a una questione preoccupante: quando i dati del test in qualche modo trapelano nei dati di preformazione degli LLM, portando a prestazioni gonfiate. Rende i confronti tra LLM ingiusti e…
Fonte: towardsdatascience.com