FACTS Benchmark Suite: un nuovo modo per valutare sistematicamente la fattualità dei LLM

 | Intelligenza-Artificiale

I modelli linguistici di grandi dimensioni (LLM) stanno diventando sempre più una fonte primaria per la fornitura di informazioni in diversi casi d’uso, quindi è importante che le loro risposte siano effettivamente accurate.

Per continuare a migliorare le loro prestazioni in questa sfida a livello di settore, dobbiamo comprendere meglio i tipi di casi d’uso in cui i modelli faticano a fornire una risposta accurata e misurare meglio le prestazioni di fattualità in quelle aree.

La suite di benchmark FACTS

Oggi collaboriamo con Kaggle per presentare il FATTI Suite di benchmark. Estende il nostro lavoro precedente sviluppando il file FATTI Benchmark di messa a terracon tre parametri di fattualità aggiuntivi, tra cui:

  • UN Benchmark parametrico che misura la capacità del modello di accedere accuratamente alla sua conoscenza interna in casi d’uso di domande fattuali.
  • UN Cerca benchmark che verifica la capacità di un modello di utilizzare la ricerca come strumento per recuperare informazioni e sintetizzarle correttamente.
  • UN Benchmark multimodale che verifica la capacità di un modello di rispondere alle richieste relative alle immagini di input in modo effettivamente corretto.

Stiamo anche aggiornando il benchmark di messa a terra FACTS originale con Benchmark di messa a terra – v2un benchmark esteso per testare la capacità di un modello di fornire risposte radicate nel contesto di un dato suggerimento.

Ogni benchmark è stato attentamente curato per produrre un totale di 3.513 esempi, che rendiamo disponibili al pubblico oggi. Analogamente alla nostra versione precedente, stiamo seguendo la pratica standard del settore e mantenendo un set di valutazione tenuto come set privato. Il punteggio FACTS Benchmark Suite (o punteggio FACTS) viene calcolato come la precisione media dei set pubblici e privati ​​rispetto ai quattro benchmark. Kaggle supervisionerà la gestione della FACTS Benchmark Suite. Ciò include possedere i set privati, testare i principali LLM sui benchmark e ospitare i risultati su una classifica pubblica. Maggiori dettagli sulla metodologia di valutazione FACTS possono essere trovati nel ns rapporto tecnico.

Panoramica dei benchmark

Benchmark parametrico

Il benchmark FACTS Parametric valuta la capacità dei modelli di rispondere accuratamente a domande basate sui fatti, senza l’ausilio di strumenti esterni come la ricerca sul web. Tutte le domande nel benchmark sono domande “in stile curiosità” guidate dall’interesse dell’utente a cui è possibile rispondere tramite Wikipedia (una fonte standard per la preformazione LLM). Il benchmark risultante è costituito da un insieme pubblico di 1052 elementi e da un insieme privato di 1052 elementi.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *