I benchmark sono spesso considerati un segno distintivo del successo. Sono un metodo apprezzato per misurare i progressi, sia che si tratti di raggiungere il miglio inferiore ai 4 minuti o la capacità di eccellere negli esami standardizzati. Nel contesto dell'intelligenza artificiale (AI), i benchmark sono il metodo più comune per valutare la capacità di un modello. Leader del settore come OpenAI, Anthropic, Meta, Google, ecc. competono in una gara per confrontarsi a vicenda con punteggi di riferimento superiori. Tuttavia, recenti studi di ricerca e le lamentele del settore mettono in dubbio se i benchmark comuni catturino veramente l’essenza dell’abilità di un modello.
La ricerca emergente sottolinea la probabilità che i set di addestramento di alcuni modelli siano stati contaminati dagli stessi dati su cui vengono valutati, sollevando dubbi sull’autenticità dei punteggi di riferimento che riflettono la vera comprensione. Proprio come nei film in cui gli attori possono interpretare Medici o Scienziati, recitano le battute senza cogliere veramente i concetti sottostanti. Quando Cillian Murphy interpretò il famoso fisico J. Robert Oppenheimer nel film Oppenheimer, probabilmente non capiva le complesse teorie fisiche di cui parlava. Sebbene i benchmark abbiano lo scopo di valutare le capacità di un modello, lo fanno davvero se, come un attore, il modello le ha memorizzate?
Recenti scoperte dell'Università dell'Arizona hanno scoperto che GPT-4 è contaminato dai set di dati AG News, WNLI e XSum che screditano i benchmark associati(1). Inoltre, i ricercatori dell’Università della Scienza e della Tecnologia della Cina hanno scoperto che quando hanno implementato la loro tecnica di “sondaggio” sul popolare benchmark MMLU (2)i risultati sono diminuiti drasticamente.
Le loro tecniche di sondaggio includevano una serie di metodi intesi a sfidare la comprensione del modello della domanda quando posta in modi diversi con diverse opzioni di risposta, ma la stessa risposta corretta. Esempi di tecniche di sondaggio consistevano in: parafrasare domande, parafrasare scelte, permutare scelte, aggiungere ulteriore contesto alle domande e aggiungere una nuova scelta alle domande benchmark.
Dal grafico sottostante, si può dedurre che, sebbene ciascun modello testato abbia ottenuto buoni risultati sul benchmark MMLU “vanilla” inalterato, quando le tecniche di sondaggio sono state aggiunte a diverse sezioni del benchmark (LU, PS, DK, All) non hanno funzionato altrettanto bene .
Questa situazione in evoluzione richiede una rivalutazione del modo in cui vengono valutati i modelli di intelligenza artificiale. Sta diventando evidente la necessità di benchmark che dimostrino in modo affidabile le capacità e anticipino i problemi di contaminazione e memorizzazione dei dati.
Poiché i modelli continuano ad evolversi e vengono aggiornati per includere potenzialmente dati di benchmark nei loro set di addestramento, i benchmark avranno una durata intrinsecamente breve. Inoltre, le finestre di contesto del modello stanno aumentando rapidamente, consentendo di includere una maggiore quantità di contesto nella risposta del modello. Quanto più ampia è la finestra di contesto, tanto maggiore è l'impatto potenziale dei dati contaminati che distorcono indirettamente il processo di apprendimento del modello, rendendolo sbilanciato rispetto agli esempi di test visti.
Per affrontare queste sfide, stanno emergendo approcci innovativi come i benchmark dinamici, che impiegano tattiche come: alterare le domande, complicare le domande, introdurre rumore nella domanda, parafrasare la domanda, invertire la polarità della domanda e altro ancora. (3).
L'esempio seguente fornisce un esempio su diversi metodi per modificare le domande di benchmark (manualmente o generato dal modello linguistico).
Man mano che andiamo avanti, diventa chiaro l’imperativo di allineare maggiormente i metodi di valutazione alle applicazioni del mondo reale. Stabilire parametri di riferimento che riflettano accuratamente compiti e sfide pratici non solo fornirà una misura più vera delle capacità di intelligenza artificiale, ma guiderà anche lo sviluppo di Small Language Models (SLM) e di agenti di intelligenza artificiale. Questi modelli e agenti specializzati richiedono parametri di riferimento che catturino realmente il loro potenziale per svolgere compiti pratici e utili.
Fonte: towardsdatascience.com