Valutazioni dei modelli e valutazioni delle attività |  di Aparna Dhinakaran |  Marzo 2024

 | Intelligenza-Artificiale

Immagine creata dall'autore utilizzando Dall-E 3

Comprendere la differenza per le applicazioni LLM

Per un momento, immagina un aereo. Cosa ti viene in mente? Ora immagina un Boeing 737 e un V-22 Osprey. Entrambi sono aerei progettati per spostare merci e persone, ma servono a scopi diversi: uno più generale (voli commerciali e merci), l'altro molto specifico (missioni di infiltrazione, esfiltrazione e rifornimento per forze operative speciali). Sembrano molto diversi perché sono costruiti per attività diverse.

Con l'avvento dei LLM, abbiamo visto i nostri primi modelli ML veramente generici. La loro generalità ci aiuta in tanti modi:

  • Lo stesso team di ingegneri ora può eseguire analisi del sentiment ed estrazione di dati strutturati
  • I professionisti di molti settori possono condividere le conoscenze, consentendo all'intero settore di trarre vantaggio dalle reciproche esperienze
  • Esiste una vasta gamma di settori e lavori in cui la stessa esperienza è utile

Ma come vediamo con gli aerei, la generalità richiede una valutazione molto diversa dall’eccellenza in un compito particolare, e alla fine dei conti il ​​valore aziendale spesso deriva dalla risoluzione di problemi particolari.

Questa è una buona analogia per la differenza tra la valutazione del modello e quella del compito. Le valutazioni dei modelli si concentrano sulla valutazione generale generale, ma le valutazioni dei compiti si concentrano sulla valutazione delle prestazioni di un compito particolare.

Il termine Valutazioni LLM viene lanciato in giro in modo abbastanza generale. OpenAI ha rilasciato alcuni strumenti per eseguire valutazioni LLM molto presto, per esempio. La maggior parte dei professionisti è più interessata alle valutazioni delle attività LLM, ma tale distinzione non è sempre chiara.

Qual è la differenza?

Le valutazioni del modello esaminano la “idoneità generale” del modello. Quanto bene si comporta in una varietà di compiti?

Le valutazioni delle attività, d'altra parte, sono progettate specificamente per verificare quanto il modello è adatto alla tua particolare applicazione.

Qualcuno che si allena in generale ed è abbastanza in forma probabilmente se la caverebbe male contro un lottatore di sumo professionista in una competizione reale, e le valutazioni dei modelli non possono competere con le valutazioni delle attività nel valutare le tue esigenze particolari.

Le valutazioni dei modelli sono pensate specificamente per la creazione e la messa a punto di modelli generalizzati. Si basano su una serie di domande poste a un modello e su una serie di risposte concrete che utilizzi per valutare le risposte. Pensa a sostenere i SAT.

Sebbene ogni domanda in una valutazione del modello sia diversa, di solito esiste un'area generale di test. Esiste un tema o un'abilità a cui ciascuna metrica è specificamente mirata. Ad esempio, le prestazioni di HellaSwag sono diventate un modo popolare per misurare la qualità LLM.

IL Hella Swag il set di dati è costituito da una raccolta di contesti e domande a scelta multipla in cui ogni domanda ha più potenziali completamenti. Solo uno dei completamenti è sensato o logicamente coerente, mentre gli altri sono plausibili ma errati. Questi completamenti sono progettati per rappresentare una sfida per i modelli di intelligenza artificiale, poiché richiedono non solo la comprensione linguistica ma anche un ragionamento basato sul buon senso per scegliere l’opzione corretta.

Ecco un esempio:
Una teglia di patate viene caricata nel forno e rimossa. Un grande vassoio di torta viene capovolto e posizionato sul bancone. un grande vassoio di carne

A. viene posto su una patata al forno

B. ls e i sottaceti vengono messi nel forno

C. viene preparato e al termine viene tolto dal forno da un aiutante.

Un altro esempio è MMLU. MMLU presenta compiti che abbracciano più materie, tra cui scienza, letteratura, storia, scienze sociali, matematica e ambiti professionali come diritto e medicina. Questa diversità nelle materie ha lo scopo di imitare l'ampiezza della conoscenza e della comprensione richiesta dagli studenti umani, rendendolo un buon test della capacità di un modello di gestire sfide multiformi di comprensione del linguaggio.

Ecco alcuni esempi: puoi risolverli?

Per quale dei seguenti processi termodinamici l'aumento dell'energia interna di un gas ideale è uguale al calore ceduto al gas?

A. Temperatura costante

B. Volume costante

C. Pressione costante

D. Adiabatico

Immagine dell'autore

IL Classifica Volti che abbracciano è forse il posto più conosciuto per ottenere tali valutazioni dei modelli. La classifica tiene traccia dei modelli linguistici di grandi dimensioni open source e tiene traccia di molti parametri di valutazione del modello. Questo è in genere un ottimo punto di partenza per comprendere la differenza tra i LLM open source in termini di prestazioni in una varietà di attività.

I modelli multimodali richiedono ancora più valutazioni. IL Carta Gemelli dimostra che la multimodalità introduce una serie di altri parametri di riferimento come VQAv2, che mette alla prova la capacità di comprendere e integrare le informazioni visive. Queste informazioni vanno oltre il semplice riconoscimento degli oggetti per interpretare le azioni e le relazioni tra loro.

Allo stesso modo, esistono metriche per le informazioni audio e video e come integrarle tra le modalità.

L'obiettivo di questi test è distinguere tra due modelli o due diverse istantanee dello stesso modello. Scegliere un modello per la tua applicazione è importante, ma è qualcosa che fai una volta o al massimo molto raramente.

Immagine dell'autore

Il problema molto più frequente è quello risolto mediante la valutazione dei compiti. L'obiettivo delle valutazioni basate su attività è analizzare le prestazioni del modello utilizzando LLM come giudice.

  • Il tuo sistema di recupero ha recuperato i dati giusti?
  • Ci sono allucinazioni nelle tue risposte?
  • Il sistema ha risposto a domande importanti con risposte pertinenti?

Alcuni potrebbero sentirsi un po' insicuri riguardo al fatto che un LLM valuti altri LLM, ma abbiamo esseri umani che valutano continuamente altri esseri umani.

La vera distinzione tra la valutazione del modello e quella dell'attività è che per la valutazione del modello poniamo molte domande diverse, ma per la valutazione dell'attività la domanda rimane la stessa e sono i dati che cambiamo. Ad esempio, supponiamo che tu stia gestendo un chatbot. Potresti utilizzare la valutazione dell'attività su centinaia di interazioni con i clienti e chiedergli: “C'è un'allucinazione qui?” La domanda rimane la stessa in tutte le conversazioni.

Immagine dell'autore

Esistono diverse librerie volte ad aiutare i professionisti a costruire queste valutazioni: Ragas, Fenice (informativa completa: l'autore guida il team che ha sviluppato Phoenix), OpenAI, LlamaIndex.

Come funzionano?

La valutazione dell'attività valuta le prestazioni di ogni output dell'applicazione nel suo insieme. Diamo un'occhiata a cosa serve per metterne insieme uno.

Stabilire un punto di riferimento

La base si basa sulla creazione di un punto di riferimento solido. Ciò inizia con la creazione di un set di dati d'oro che riflette accuratamente gli scenari che il LLM incontrerà. Questo set di dati dovrebbe includere etichette di verità fondate – spesso derivate da una meticolosa revisione umana – per fungere da standard per il confronto. Non preoccuparti, però, di solito puoi farla franca con dozzine o centinaia di esempi qui. Anche la selezione del LLM giusto per la valutazione è fondamentale. Sebbene possa differire dal LLM principale dell'applicazione, dovrebbe essere in linea con obiettivi di efficienza in termini di costi e accuratezza.

Elaborazione del modello di valutazione

Il cuore del processo di valutazione delle attività è il modello di valutazione. Questo modello dovrebbe definire chiaramente l'input (ad esempio, query e documenti dell'utente), la domanda di valutazione (ad esempio, la pertinenza del documento alla query) e i formati di output attesi (rilevanza binaria o multi-classe). Potrebbero essere necessarie modifiche al modello per acquisire sfumature specifiche della tua applicazione, assicurando che possa valutare accuratamente le prestazioni del LLM rispetto al set di dati dorato.

Ecco un esempio di modello per valutare un'attività di domande e risposte.

You are given a question, an answer and reference text. You must determine whether the given answer correctly answers the question based on the reference text. Here is the data:
(BEGIN DATA)
************
(QUESTION): {input}
************
(REFERENCE): {reference}
************
(ANSWER): {output}
(END DATA)
Your response should be a single word, either "correct" or "incorrect", and should not contain any text or characters aside from that word.
"correct" means that the question is correctly and fully answered by the answer.
"incorrect" means that the question is not correctly or only partially answered by the answer.

Metriche e iterazione

L'esecuzione della valutazione sul tuo set di dati golden ti consente di generare metriche chiave come accuratezza, precisione, richiamo e punteggio F1. Questi forniscono informazioni sull'efficacia del modello di valutazione ed evidenziano le aree di miglioramento. L'iterazione è cruciale; Il perfezionamento del modello in base a questi parametri garantisce che il processo di valutazione rimanga allineato con gli obiettivi dell'applicazione senza adattarsi eccessivamente al set di dati dorato.

Nelle valutazioni dei compiti, fare affidamento esclusivamente sull’accuratezza complessiva non è sufficiente poiché ci aspettiamo sempre un significativo squilibrio di classe. Precisione e richiamo offrono una visione più solida delle prestazioni del LLM, sottolineando l'importanza di identificare accuratamente sia i risultati rilevanti che quelli irrilevanti. Un approccio equilibrato alle metriche garantisce che le valutazioni contribuiscano in modo significativo a migliorare l'applicazione LLM.

Applicazione delle valutazioni LLM

Una volta predisposto un quadro di valutazione, il passo successivo è applicare queste valutazioni direttamente alla tua domanda LLM. Ciò comporta l'integrazione del processo di valutazione nel flusso di lavoro dell'applicazione, consentendo la valutazione in tempo reale delle risposte del LLM agli input degli utenti. Questo ciclo di feedback continuo è prezioso per mantenere e migliorare la pertinenza e l'accuratezza dell'applicazione nel tempo.

Valutazione attraverso il ciclo di vita del sistema

Le valutazioni efficaci delle attività non sono limitate a una singola fase ma sono parte integrante dell'intero ciclo di vita del sistema LLM. Dal benchmarking e test pre-produzione alle valutazioni continue delle prestazioni in produzione, Valutazione LLM garantisce che il sistema rimanga rispondente alle esigenze dell'utente.

Esempio: il modello ha allucinazioni?

Diamo un'occhiata a un esempio di allucinazione in modo più dettagliato.

Esempio per autore

Poiché le allucinazioni sono un problema comune per la maggior parte dei professionisti, sono disponibili alcuni set di dati di riferimento. Si tratta di un ottimo primo passo, ma spesso sarà necessario disporre di un set di dati personalizzato all'interno della propria azienda.

Il prossimo passo importante è sviluppare il modello di prompt. Anche in questo caso una buona biblioteca può aiutarti a iniziare. Abbiamo visto un esempio di modello di prompt in precedenza, qui ne vediamo un altro specifico per le allucinazioni. Potrebbe essere necessario modificarlo per i tuoi scopi.

In this task, you will be presented with a query, a reference text and an answer. The answer is
generated to the question based on the reference text. The answer may contain false information, you
must use the reference text to determine if the answer to the question contains false information,
if the answer is a hallucination of facts. Your objective is to determine whether the reference text
contains factual information and is not a hallucination. A 'hallucination' in this context refers to
an answer that is not based on the reference text or assumes information that is not available in
the reference text. Your response should be a single word: either "factual" or "hallucinated", and
it should not include any other text or characters. "hallucinated" indicates that the answer
provides factually inaccurate information to the query based on the reference text. "factual"
indicates that the answer to the question is correct relative to the reference text, and does not
contain made up information. Please read the query and reference text carefully before determining
your response.

(BEGIN DATA)
************
(Query): {input}
************
(Reference text): {reference}
************
(Answer): {output}
************
(END DATA)

Is the answer above factual or hallucinated based on the query and reference text?

Your response should be a single word: either "factual" or "hallucinated", and it should not include any other text or characters.
"hallucinated" indicates that the answer provides factually inaccurate information to the query based on the reference text.
"factual" indicates that the answer to the question is correct relative to the reference text, and does not contain made up information.
Please read the query and reference text carefully before determining your response.

Ora sei pronto per fornire al tuo LLM di valutazione le query dal tuo set di dati d'oro e fargli etichettare le allucinazioni. Quando guardi i risultati, ricorda che dovrebbe esserci uno squilibrio di classe. Vuoi monitorare la precisione e il richiamo anziché l'accuratezza complessiva.

È molto utile costruire una matrice di confusione e rappresentarla visivamente. Quando hai una trama del genere, puoi sentirti rassicurato sulle prestazioni del tuo LLM. Se le prestazioni non sono di tuo gradimento, puoi sempre ottimizzare il modello di prompt.

Esempio di valutazione delle prestazioni dell'attività in modo che gli utenti possano acquisire fiducia nelle loro valutazioni

Dopo aver creato la valutazione, ora disponi di un potente strumento in grado di etichettare tutti i tuoi dati con precisione e richiamo noti. Puoi usarlo per tenere traccia delle allucinazioni nel tuo sistema sia durante le fasi di sviluppo che di produzione.

Riassumiamo le differenze tra la valutazione del compito e quella del modello.

Tabella per autore

In definitiva, sia le valutazioni dei modelli che le valutazioni delle attività sono importanti per mettere insieme un sistema LLM funzionale. È importante capire quando e come applicarli. Per la maggior parte dei professionisti, la maggior parte del tempo verrà dedicata alla valutazione dei compiti, che fornisce una misura delle prestazioni del sistema su un compito specifico.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *