Responsabilità e sicurezza
Il nostro benchmark completo e la classifica online offrono una misura tanto necessaria di quanto accuratamente gli LLM fondano le loro risposte nel materiale originale fornito ed evitano allucinazioni
I modelli linguistici di grandi dimensioni (LLM) stanno trasformando il modo in cui accediamo alle informazioni, ma la loro presa sull’accuratezza fattuale rimane imperfetta. Possono “allucinare” false informazioni, in particolare quando ricevono input complessi. A sua volta, ciò può erodere la fiducia negli LLM e limitare le loro applicazioni nel mondo reale.
Oggi ci presentiamo FATTI Messa a terraun punto di riferimento completo per valutare la capacità degli LLM di generare risposte che non solo sono fattivamente accurate rispetto agli input forniti, ma anche sufficientemente dettagliate per fornire risposte soddisfacenti alle domande degli utenti.
Ci auguriamo che il nostro benchmark stimoli il progresso a livello di settore in termini di fattualità e solidità. Per tenere traccia dei progressi, stiamo anche lanciando il file Classifica FATTI su Kaggle. Abbiamo già testato i principali LLM utilizzando FACTS Grounding e abbiamo popolato la classifica iniziale con i loro punteggi di messa a terra. Manterremo e aggiorneremo la classifica man mano che il campo avanza.
FATTI Set di dati di base
Per valutare accuratamente la fattualità e la fondatezza di un dato LLM, il set di dati FACTS Grounding comprende 1.719 esempi, ciascuno realizzato con cura per richiedere risposte di lunga durata basate sul documento contestuale fornito. Ogni esempio comprende un documento, un'istruzione di sistema che richiede al LLM di fare riferimento esclusivamente al documento fornito e una richiesta dell'utente di accompagnamento.
Tutti gli esempi sono divisi in un set “pubblico” (860) e un set “privato” (859). Noi siamo liberando il set pubblico oggi in modo che chiunque possa utilizzarlo per valutare un LLM. Naturalmente, sappiamo che è importante proteggersi dai problemi legati alla contaminazione dei benchmark e all'hacking delle classifiche, quindi, seguendo la pratica standard del settore, manteniamo il set di valutazioni private. I punteggi della classifica FACTS rappresentano la prestazione media sia nei set pubblici che in quelli privati.
Per garantire una diversità di input, gli esempi di FACTS Grounding includono documenti di varia lunghezza, fino a un massimo di 32.000 token (circa 20.000 parole), che coprono settori come finanza, tecnologia, vendita al dettaglio, medicina e diritto. Le richieste degli utenti sono altrettanto ampie, comprese richieste di riepilogo, generazione di domande e risposte e attività di riscrittura. Non abbiamo incluso esempi che potrebbero richiedere creatività, matematica o ragionamento complesso, capacità che potrebbero richiedere al modello di applicare un ragionamento più avanzato oltre al radicamento.
Giudizio collettivo da parte dei principali LLM
Per avere successo su un dato esempio, un LLM deve sintetizzare le informazioni complesse nel documento e generare una risposta di lungo formato che sia sia una risposta esauriente alla richiesta dell'utente sia completamente attribuibile a quel documento.
FATTI Grounding valuta automaticamente le risposte del modello utilizzando tre giudici LLM di frontiera: Gemini 1.5 Pro, GPT-4o e Claude 3.5 Sonnet. Abbiamo selezionato una combinazione di diversi giudici per mitigare qualsiasi potenziale pregiudizio di un giudice che assegna punteggi più alti alle risposte prodotte da un membro della sua stessa famiglia modello. I modelli di giudizio automatico sono stati valutati in modo completo rispetto a una serie di test per trovare i modelli di suggerimenti di giudizio più performanti e per verificare l'accordo con i valutatori umani.
Ogni esempio di FACTS Grounding viene giudicato in due fasi. Innanzitutto, le risposte vengono valutate per l'idoneità e vengono squalificate se non soddisfano sufficientemente la richiesta dell'utente. In secondo luogo, le risposte sono giudicate fattivamente accurate se sono pienamente fondate sulle informazioni contenute nel documento fornito, senza allucinazioni.
Con l'ammissibilità e l'accuratezza di base di una determinata risposta LLM valutata separatamente da più modelli di giudici AI, i risultati vengono quindi aggregati per determinare se il LLM ha affrontato l'esempio con successo. Il punteggio finale per il compito complessivo di grounding è la media dei punteggi di tutti i modelli giudicanti in tutti gli esempi. Scopri maggiori dettagli sulla nostra metodologia di valutazione FACTS Grounding nel nostro giornale.
FATTI Il grounding continuerà ad evolversi
Siamo consapevoli che i parametri di riferimento possono essere rapidamente superati dai progressi, quindi questo lancio del nostro benchmark e della classifica FACTS Grounding è solo l'inizio. La fattualità e il radicamento sono tra i fattori chiave che daranno forma al futuro successo e all'utilità degli LLM e dei sistemi di intelligenza artificiale più ampi, e miriamo a far crescere e iterare FACTS Grounding man mano che il campo progredisce, alzando continuamente l'asticella.
Incoraggiamo la comunità dell'intelligenza artificiale a farlo impegnarsi con il radicamento dei FATTIvalutare i propri modelli sulla base di una serie aperta di esempi o sottoporre i propri modelli per la valutazione. Riteniamo che metodi di benchmarking completi, abbinati a ricerca e sviluppo continui, continueranno a migliorare i sistemi di intelligenza artificiale.
Ringraziamenti
FATTI Grounding è stato guidato da: Alon Jacovi, Andrew Wang, Chris Alberti, Connie Tao, Dipanjan Das, Jon Lipovetz, Kate Olszewska, Lukas Haas, Michelle Liu e Nate Keating.
Siamo anche molto grati per i contributi di: Adam Bloniarz, Carl Saroufim, Corey Fry, Dror Marcus, Doron Kukliansky, Gaurav Singh Tomar, James Swirhun, Jinwei Xing, Lily Wang, Madhu Gurumurthy, Michael Aaron, Moran Ambar, Rachana Fellinger, Rui Wang, Zizhao Zhang e Sasha Goldshtein.
Vorremmo anche ringraziare Avinatan Hassidim, D. Sculley, Fernando Pereira, Koray Kavukcuoglu, Slav Petrov, Ya Xu e Yossi Matias per il loro continuo supporto.
Fonte: deepmind.google