Nel campo dell'istruzione, gli esami migliori sono quelli che sfidano gli studenti ad applicare ciò che hanno imparato in modi nuovi e imprevedibili, andando oltre la memorizzazione dei fatti per dimostrare la vera comprensione. Le nostre valutazioni dei modelli linguistici dovrebbero seguire lo stesso modello. Poiché vediamo nuovi modelli inondare ogni giorno lo spazio dell’intelligenza artificiale, sia da giganti come OpenAI e Anthropic, sia da gruppi di ricerca e università più piccoli, è fondamentale che le valutazioni dei nostri modelli approfondiscano le prestazioni rispetto ai benchmark standard. La ricerca emergente suggerisce che i parametri di riferimento su cui abbiamo fatto affidamento per valutare la capacità del modello non sono così affidabili come pensavamo una volta. Per poter sostenere adeguatamente i nuovi modelli, i nostri benchmark devono evolversi per essere dinamici e complessi quanto le sfide del mondo reale che chiediamo a questi modelli e alle architetture emergenti degli agenti IA di risolvere.
In questo articolo esploreremo la complessità della valutazione del modello linguistico rispondendo alle seguenti domande:
- Come vengono valutati oggi i modelli linguistici?
- Quanto sono affidabili i modelli linguistici che eccellono nei benchmark?
- I modelli linguistici e gli agenti di intelligenza artificiale possono tradurre la conoscenza in azione?
- Perché i modelli linguistici (o modelli di base) dovrebbero avere più padronanza del testo?
Allora, come vengono valutati oggi i modelli linguistici?
Oggi la maggior parte dei modelli, Large Language Models (LLM) o Small Language Models (SLM), vengono valutati su una serie comune di benchmark tra cui Massive Multitask Language Understanding (MMLU), Grade School Math (GSM8K) e Big-Bench Hard (BBH) set di dati, tra gli altri.
Per fornire una comprensione più approfondita dei tipi di attività valutate da ciascun benchmark, ecco alcune domande di esempio da ciascun set di dati:
- MMLU: progettato per misurare le informazioni apprese dal modello durante la pre-formazione in una varietà di materie STEM e umanistiche e livelli di difficoltà, dalla comprensione professionale elementare a quella avanzata, utilizzando domande a scelta multipla.
Esempio di domanda di medicina universitaria in MMLU: “In un test genetico di un neonato, viene rilevata una rara malattia genetica che ha una trasmissione recessiva legata all'X. Quale delle seguenti affermazioni è probabilmente vera riguardo all'albero genealogico del disturbo? A. Tutti i discendenti dal lato materno avranno la malattia. B. Le femmine saranno colpite circa il doppio rispetto ai maschi nella loro famiglia. C. Tutte le figlie di un maschio affetto saranno colpite. D. Ci sarà una distribuzione equa di maschi e femmine colpiti. (La risposta corretta è C) (2) - GSM8K: I modelli linguistici in genere faticano a risolvere domande di matematica, il set di dati GSM8K valuta la capacità di un modello di ragionare e risolvere problemi di matematica utilizzando 8,5k diversi problemi di matematica delle scuole elementari.
Esempio: “La madre di Dean gli ha dato 28 dollari per andare a fare la spesa. Dean ha comprato 6 macchinine e 5 orsacchiotti. Ogni macchinina costava 12 dollari e ogni orsacchiotto costava 1 dollaro. Sua madre allora si sente generosa e decide di dargli altri 10 dollari. Quanti soldi ha lasciato Dean? (3) - BBH: Questo set di dati è composto da 23 compiti del set di dati Big Bench che i modelli linguistici hanno tradizionalmente faticato a risolvere. Queste attività richiedono generalmente un ragionamento in più fasi per completare con successo l'attività.
Esempio: “Se segui queste istruzioni, ritorni al punto di partenza? Girare a sinistra. Girare a destra. Fai 5 passi. Fai 4 passi. Girarsi. Fai 9 passi. Opzioni: — Sì — No” (4)
Il recente annuncio di Claude-3 da parte di Anthropic mostra che il loro modello Opus supera GPT-4 come modello principale nella maggior parte dei benchmark comuni. Ad esempio, Claude-3 Opus ha ottenuto un rendimento dell'86,8% su MMLU, superando di poco GPT-4 che ha ottenuto l'86,4%. Anche Claude-3 Opus ha ottenuto un punteggio del 95% su GSM8K e dell'86,8% su BBH rispetto al 92% e all'83,1% di GPT-4 rispettivamente (1).
Sebbene le prestazioni di modelli come GPT-4 e Claude su questi benchmark siano impressionanti, queste attività non sono sempre rappresentative del tipo di sfide che le aziende vogliono risolvere. Inoltre, un numero crescente di ricerche suggerisce che i modelli memorizzano le domande di riferimento anziché comprenderle. Ciò non significa necessariamente che i modelli non siano in grado di generalizzare a nuovi compiti, vediamo ogni giorno LLM e SLM eseguire imprese straordinarie, ma significa che dovremmo riconsiderare il modo in cui valutiamo, assegnamo un punteggio e promuoviamo i modelli.
Quanto sono affidabili i modelli linguistici che eccellono nei benchmark?
Una ricerca condotta da Microsoft, dall'Institute of Automation CAS e dall'Università di Scienza e Tecnologia della Cina dimostra come quando si pongono domande di benchmark riformulate o modificate su vari modelli linguistici, i modelli ottengono risultati significativamente peggiori rispetto a quando viene posta la stessa domanda di benchmark senza modifiche. Ai fini della loro ricerca, come mostrato nel documento, DyVal 2, i ricercatori hanno preso domande da benchmark come MMLU e le hanno modificate riformulando la domanda, aggiungendo una risposta extra alla domanda, riformulando le risposte, permutando le risposte o aggiungendo contenuto extra alla domanda. Confrontando le prestazioni del modello sul set di dati “vanilla” rispetto alle domande modificate, hanno notato, ad esempio, una diminuzione delle prestazioni GPT-4 ha ottenuto 84,4 sulle domande MMLU vanilla e 68,86 sulle domande MMLU modificate (5).
Allo stesso modo, una ricerca del Dipartimento di Informatica dell’Università dell’Arizona indica che esiste un quantità significativa di contaminazione dei dati nei modelli linguistici (6). Ciò significa che le informazioni nei benchmark stanno diventando parte dei dati di addestramento dei modelli, rendendo di fatto irrilevanti i punteggi dei benchmark poiché i modelli vengono testati sulle informazioni su cui sono addestrati.
Ulteriori ricerche della Fudan University, della Tongji University e di Alibaba evidenziano la necessità di valutazioni dinamiche in evoluzione automatica per gli agenti di intelligenza artificiale per combattere i problemi di contaminazione dei dati e memorizzazione dei benchmark (7). Questi benchmark dinamici aiuteranno a evitare che i modelli memorizzino o apprendano informazioni durante il pre-addestramento su cui verranno successivamente testati. Sebbene un afflusso ricorrente di nuovi benchmark possa creare sfide quando si confronta un modello precedente con uno nuovo, idealmente questi benchmark mitigheranno i problemi di contaminazione dei dati e renderanno più semplice valutare quanto bene un modello comprende gli argomenti della formazione.
Quando valutiamo la capacità del modello per un particolare problema, dobbiamo comprendere sia quanto bene il modello comprende le informazioni apprese durante il pre-addestramento sia quanto bene può generalizzare a nuovi compiti o concetti oltre i dati di addestramento.
I modelli linguistici e gli agenti di intelligenza artificiale possono tradurre la conoscenza in azione?
Mentre cerchiamo di utilizzare modelli come agenti di intelligenza artificiale per eseguire azioni per nostro conto, che si tratti di prenotare una vacanza, scrivere un rapporto o ricercare nuovi argomenti per noi, avremo bisogno di ulteriori parametri di riferimento o meccanismi di valutazione in grado di valutare l'affidabilità e l'accuratezza di questi agenti. La maggior parte delle aziende che desiderano sfruttare la potenza dei modelli di base richiedono di fornire al modello l'accesso a una varietà di strumenti integrati con le proprie origini dati uniche e richiedono che il modello ragioni e pianifichi quando e come utilizzare in modo efficace gli strumenti a loro disposizione. Questi tipi di attività non sono rappresentati in molti benchmark LLM tradizionali.
Per colmare questa lacuna, molti gruppi di ricerca stanno creando i propri parametri di riferimento e strutture che valutano le prestazioni degli agenti in compiti che coinvolgono l'uso di strumenti e la conoscenza al di fuori dei dati di addestramento del modello. Ad esempio, gli autori di AgentVerse hanno valutato la capacità dei team di agenti di svolgere attività reali che coinvolgono la pianificazione di eventi, lo sviluppo di software e la consulenza. I ricercatori hanno creato una propria serie di 10 attività di test che sono state valutate manualmente per determinare se gli agenti hanno eseguito la giusta serie di azioni, utilizzato gli strumenti adeguati e ottenuto un risultato accurato. Hanno scoperto che team di agenti che operavano in un ciclo con fasi definite per il reclutamento degli agenti, la pianificazione delle attività, l’esecuzione indipendente delle attività e la successiva valutazione portano a risultati superiori rispetto agli agenti indipendenti (8).
Oltre le singole modalità e nel mondo reale. Perché i modelli linguistici (o modelli di base) dovrebbero avere più padronanza del testo?
A mio avviso, le architetture e i benchmark degli agenti emergenti rappresentano un grande passo avanti verso la comprensione del rendimento dei modelli linguistici su problemi orientati al business, ma un limite è che la maggior parte è ancora focalizzata sul testo. Considerando il mondo e la natura dinamica della maggior parte dei lavori, avremo bisogno di sistemi e modelli di agenti che valutino insieme sia le prestazioni su compiti basati su testo, sia compiti visivi e uditivi. Il set di dati AlgoPuzzleVQA è un esempio di valutazione dei modelli sulla loro capacità di ragionare, leggere e interpretare visivamente enigmi matematici e algoritmici (9).
Anche se le aziende potrebbero non essere interessate alla capacità di un modello di risolvere un puzzle, si tratta comunque di un passo nella giusta direzione per comprendere la capacità dei modelli di ragionare sulle informazioni multimodali.
Conclusione
Mentre continuiamo ad adottare modelli di base nella nostra routine quotidiana e nei nostri sforzi professionali, abbiamo bisogno di ulteriori opzioni di valutazione che rispecchino i problemi del mondo reale. I benchmark dinamici e multimodali ne costituiscono una componente chiave. Tuttavia, quando introduciamo ulteriori framework e architetture di agenti con molti agenti AI che collaborano per risolvere un problema, la valutazione e il confronto tra modelli e framework diventano ancora più impegnativi. La vera misura dei modelli di fondazione non risiede nella loro capacità di superare test standardizzati, ma nella loro capacità di comprendere, adattarsi e agire all’interno del mondo reale complesso e spesso imprevedibile. Cambiando il modo in cui valutiamo i modelli linguistici, sfidiamo questi modelli a evolversi da intelletti basati sul testo e esperti di benchmark a pensatori globali in grado di affrontare sfide sfaccettate (e multimodali).
Sei interessato a discutere ulteriormente o collaborare? Raggiungi LinkedIn!
Fonte: towardsdatascience.com