Perché non dovresti utilizzare valutazioni numeriche per LLM come giudice | di Aparna Dhinakaran | Marzo 2024 | Intelligenza-Artificiale

Indice contenuti

Immagine creata dall'autore utilizzando Dall-E 3

Testare i principali LLM sulla capacità di condurre valutazioni numeriche

Oltre a generare testo per un numero crescente di applicazioni industriali, i LLM sono ora ampiamente diffusi in uso come strumenti di valutazione. I modelli quantificano la pertinenza dei documenti recuperati nei sistemi di recupero, misurano il sentiment di commenti e post e altro ancora, valutando sia il testo umano che quello generato dall'intelligenza artificiale. Queste valutazioni sono spesso numeriche o categoriche.

Diversi tipi di valutazioni LLM (diagramma per autore)

Le valutazioni numeriche implicano che un LLM restituisca un numero in base a una serie di criteri di valutazione. Ad esempio, a un modello potrebbe essere assegnato il compito di stabilire quanto sia rilevante un documento per una query dell'utente su una scala da uno a dieci.

Una valutazione categorica è diversa in quanto consente a un LLM di scegliere tra una serie di opzioni predefinite, spesso basate su testo, tra cui scegliere nella sua valutazione. Ad esempio, un suggerimento potrebbe chiedere se un passaggio è “felice”, “triste” o “neutro” invece di cercare di quantificare il livello di felicità del passaggio.

Questo articolo presenta i risultati dei test di diversi importanti LLM (GPT-4 di OpenAI, Claude di Anthropic e Mixtral-8x7b di Mistral AI) sulla capacità di condurre valutazioni numeriche. Tutto il codice eseguito per completare questi test può essere trovato in questo repository GitHub.

Le valutazioni dei punteggi numerici tra i LLM non sono coerenti e piccole differenze nei modelli di prompt possono portare a enormi discrepanze nei risultati.
Anche mantenere costanti tutte le variabili indipendenti (modello, modello di prompt, contesto) può portare a risultati variabili in più cicli di test. Gli LLM non sono deterministici e alcuni non sono affatto coerenti nei loro giudizi numerici.
Ci sono buone ragioni per dubitare che GPT-4, Claude o Mixtral siano in grado di gestire intervalli continui abbastanza bene da utilizzarli ancora per valutazioni di punteggi numerici per casi d'uso nel mondo reale.

Esperimento di corruzione ortografica

Il primo esperimento è stato pensato per valutare la capacità di un LLM di assegnare punteggi compresi tra 0 e 10 ai documenti in base alla percentuale di parole contenenti errori di ortografia.

Abbiamo preso un passaggio di parole scritte correttamente, modificato il testo per includere parole errate a frequenze variabili e quindi inviato questo testo danneggiato a un LLM utilizzando questo modello di prompt:

SIMPLE_TEMPLATE_SPELLING = """
You are a helpful AI bot that checks for grammatic, spelling and typing errors in a document context. 
You are going to score the document based on the percent of grammatical and typing errors. The score should be between {templ_high} and {templ_low}. 
A {templ_low} score will be no grammatical errors in any word, a score of {templ_20_perc} will be 20% of words have errors, a {templ_50_perc} score will be 50% errors, a score of {templ_70_perc} is 70%, and a {templ_high} will be all words in context have grammatical errors. 
The following is the document context.#CONTEXT
{context}
#ENDCONTEXT
#QUESTION
Please return a score between {templ_high} and {templ_low}, with a case of {templ_high} being all words have a grammatical error and {templ_low} being no words have grammatical or spelling errors. 
You will return no other text or language besides the score. Only return the score.
Please

Abbiamo quindi chiesto al modello di restituire una valutazione numerica corrispondente alla percentuale di parole nel passaggio con errori di ortografia (3 → 30% con errori di ortografia, 8 → 80%, ecc.). Idealmente, un punteggio pari a 10 indicherebbe che ogni parola in un documento è scritta in modo errato, mentre un punteggio pari a 0 significherebbe che non sono presenti errori di ortografia. I risultati dell’esperimento su tre LLM – GPT-4, Claude e Mixtral – sono stati tutt’altro che eccezionali.

Risultati di corruzione ortografica GPT-4 (immagine dell'autore)

I risultati osservati erano lontani dall'intervallo lineare perfetto previsto; il sistema di punteggio non rifletteva in modo coerente la percentuale di errori di ortografia nei documenti. Infatti, GPT-4 (sopra) ha restituito 10 (che rappresenta un tasso di errore del 100%) per ogni documento con una percentuale di densità di corruzione pari o superiore al 10%. I punteggi riportati erano la mediana di più studi condotti per ciascun livello di errore specificato.

GPT-4, Claude, risultati di corruzione ortografica Mixtral (immagine dell'autore)

I risultati di Claude erano leggermente migliori, ma non ancora perfetti o ad un livello probabilmente accettabile per l'implementazione. Mixtral, il più piccolo di questi tre modelli, ha ottenuto i risultati migliori.

Allora perché è importante? Dato l'interesse nell'utilizzo dei valutatori numerici LLM in una varietà di contesti, ci sono buone ragioni per ritenere che l'utilizzo dei LLM in questo modo possa incontrare ostacoli in termini di prestazioni e soddisfazione del cliente.

Esperimenti di qualificazione emotiva

Il secondo e il terzo esperimento condotto sono stati progettati per valutare la capacità di un LLM di assegnare punteggi compresi tra 0 e 10 ai documenti in base alla quantità di frasi all'interno del testo che contenevano parole che indicavano tristezza o frustrazione.

In questi test abbiamo incorporato nel testo frasi e parole che trasmettevano un senso di tristezza/frustrazione all'interno del brano. Al modello è stato chiesto di quantificare quanto fosse prevalente l'emozione nel testo, dove 1 corrispondeva a nessuna frase che trasmetteva l'emozione e 10 corrispondeva al 100% delle frasi che trasmettevano l'emozione.

Questi esperimenti sono stati condotti insieme al test di ortografia per determinare se lo spostamento dell'attenzione del modello dal conteggio delle parole al conteggio delle frasi avrebbe avuto un impatto sui risultati. Mentre il test di ortografia ha ottenuto un punteggio in base alla percentuale di parole errate, i test di tristezza/frustrazione hanno ottenuto un punteggio in base alla percentuale di frasi emotive.

L'istruzione all'inizio del modello di prompt variava tra i test mentre tutto ciò che iniziava con il contesto rimaneva lo stesso, indicato dai puntini di sospensione:

SIMPLE_TEMPLATE_FRUSTRATION = """
You are a helpful AI bot that detects frustrated conversations. You are going to score the document based on the percent of sentences where the writer expresses frustration.
The score should be between {templ_high} and {templ_low}.
A {templ_low} will indicate almost no frustrated sentences, a score of {templ_20_perc} will be 20% of sentences express frustration, a {templ_50_perc} will be 50% of sentences express frustration, a score of {templ_70_perc} is 70%, and a {templ_high} score will be all the sentences express frustration. ...
"""

SIMPLE_TEMPLATE_SADNESS = """
You are a helpful AI bot that detects sadness and sorrow in writing. You are going to score the document based on the percent of sentences where the writer expresses sadness or sorrow.
The score should be between {templ_high} and {templ_low}.
A {templ_low} will indicate almost no sentences that have sadness or sorrow, a score of {templ_20_perc} will be 20% of sentences express sadness or sorrow, a {templ_50_perc} will be 50% of sentences express sadness or sorrow, a score of {templ_70_perc} is 70%, and a {templ_high} score will be all the sentences express sadness or sorrow....
"""

Ancora una volta, un punteggio pari a 10 dovrebbe indicare che ogni frase in un documento contiene qualificazioni di tristezza o frustrazione, mentre un punteggio pari a 0 significherebbe che non ce ne sono. I punteggi intermedi corrispondono a vari gradi della frequenza emotiva, con i punteggi più alti che rappresentano una percentuale maggiore di frasi emotive.

Risultati di corruzione ortografica, tristezza e frustrazione GPT-4 (immagine dell'autore)

Similmente all’esperimento sulla corruzione dell’ortografia, i risultati mostrano una discrepanza significativa rispetto ai risultati attesi. GPT-4 assegna a ogni documento con tassi di tristezza superiori al 30% o tassi di frustrazione circa il 70% un punteggio di 10. Sorprendentemente, tra tutti i test eseguiti con GPT-4, le uniche volte in cui la risposta mediana soddisfa un intervallo lineare perfetto è quando non sono presenti qualificatori o parole con errori di ortografia.

Risultati di corruzione ortografica mixtral, tristezza, frustrazione (immagine dell'autore)

Mixtral si comporta relativamente bene negli esperimenti di qualificazione emotiva. Anche se ci sono buone ragioni per dubitare che questi modelli gestiscano attualmente gli intervalli continui abbastanza bene da poterli utilizzare per valutazioni di punteggi numerici, Mixtral è il più vicino a realizzare questa impresa.

Sulla base di questi risultati, non consigliamo valutazioni del punteggio nel codice di produzione.

Varianza nei risultati

Vale la pena notare che abbiamo eseguito questi test più volte per ciascun modello e abbiamo tracciato la distribuzione delle loro risposte.

Confronto dei risultati della valutazione tra molti test con un intervallo da 1 a 10 (immagine per autore)

Una distribuzione ideale sarebbe stretta intorno ai limiti basso e alto (elevata confidenza se tutte o nessuna delle parole/frasi venissero contate) e forse una regione di transizione più lunga al centro (ad es. minore confidenza che differenzia tra 4 e 5).

Due cose emergono qui. Innanzitutto, la ristrettezza delle distribuzioni è molto diversa a seconda dei modelli e dei compiti. Le distribuzioni di Claude variano notevolmente nel corso delle nostre prove; abbiamo esempi del modello che assegna costantemente 1–4 all'80% di corruzione, ad esempio. D’altra parte, GPT-4 ha distribuzioni molto più ristrette, anche se a valori che per la maggior parte non soddisfano le ragionevoli aspettative.

In secondo luogo, alcuni modelli riescono a gestire meglio le transizioni in intervalli continui rispetto ad altri. Sembra che le distribuzioni di Mixtral si stiano avvicinando a prestazioni accettabili, ma tutti e tre i modelli sembrano avere molta strada da fare prima di essere pronti per la produzione.

Attualmente sono in corso molte ricerche sulle valutazioni LLM. Valutazione basata sulla metrica della stima GPT di Microsoft (GEMBA), ad esempio, esamina la capacità di diversi modelli linguistici di grandi dimensioni di valutare la qualità di diversi segmenti di traduzione. Sebbene alcuni documenti di ricerca utilizzino probabilità e punteggi numerici come parte dell'output della valutazione (GEMBA e altri riportano addirittura risultati promettenti), il modo in cui vediamo i clienti applicare le valutazioni dei punteggi nel mondo reale è spesso molto diverso dalla ricerca attuale.

Con questo in mente, abbiamo tentato di adattare la nostra ricerca a queste applicazioni più pratiche e reali – e i risultati evidenziano perché l’uso diretto dei punteggi per le decisioni può essere problematico. Considerando le risposte di GPT-4 nella nostra ricerca sulla valutazione dei punteggi, sembra che il modello voglia scegliere una delle due opzioni: 1 o 10, tutto o niente.

In definitiva, la valutazione categorica (binaria o multiclasse) probabilmente ha molte promesse e sarà interessante osservare questo spazio.

L'utilizzo degli LLM per condurre valutazioni numeriche è complicato e inaffidabile. Passare da un modello all'altro e apportare piccole modifiche ai modelli di prompt può portare a risultati molto diversi, rendendo difficile approvare i LLM come arbitri costantemente affidabili dei criteri di valutazione numerica. Inoltre, l’ampia distribuzione dei risultati nel corso dei test continui dimostra che questi modelli spesso non sono coerenti nelle loro risposte, anche quando le variabili indipendenti rimangono invariate. I lettori che costruiscono con valutazioni LLM farebbero bene a evitare di utilizzare valutazioni numeriche nel modo descritto in questo articolo.

Fonte: towardsdatascience.com