Verifica dei fatti e verifica delle affermazioni |  di Nikola Milosevic (Data Warrior) |  Aprile 2024

 | Intelligenza-Artificiale

Perché il compito di rilevamento delle allucinazioni viene chiamato erroneamente

Durante lo scorso anno, ho lavorato su due progetti che si occupavano del rilevamento delle allucinazioni di grandi modelli linguistici e della verifica delle affermazioni da essi prodotte. Come ogni ricerca, soprattutto quella che riguarda la verifica delle affermazioni, ha portato a un bel po' di revisione della letteratura, dalla quale ho appreso che molti autori hanno il compito di verificare se alcune affermazioni sono basate su prove provenienti da una fonte attendibile ( ad esempio una precedente pubblicazione scientifica, un articolo di enciclopedia, ecc.) è spesso chiamato fact-checking (esempi di tali pubblicazioni includono Google Mente profonda, Università della Pennsylvania, Università di Washington, Allen Institute per l'intelligenza artificiale, OpenAI e altri). Anche i set di dati, come SciFact, contengono fattualità nel nome.

Presumo che chiamare fattualità alcuni parametri nei modelli linguistici di grandi dimensioni risalga al LaMDA articolo di Google, che, pubblicato nel febbraio 2022, è, per quanto ne so, la prima menzione di tale metrica in LLM. Prima che si potessero trovare esempi occasionali di verifica dei fatti, come ad esempio in a SciFatto paper (dal 2020), ma LaMDA è stata la prima menzione relativa ai LLM. Nel documento LaMDA, questa metrica è stata chiamata factual grounding, che è un nome decisamente migliore rispetto alle versioni semplificate successive, come “fattualità” o “fedeltà”. In questo articolo, vorrei discutere il motivo per cui il nome della metrica dovrebbe essere verifica delle affermazioni e perché penso che nomi come fedeltà, fattualità e verifica dei fatti siano sbagliati sia dal punto di vista pratico che filosofico.

Robot che controlla il testo (immagine generata tramite ideogram.ai)

Esaminiamo qual è la base del compito. Considerando l'affermazione che è stata prodotta da un ampio modello linguistico, stiamo verificando se è fondata su prove provenienti da qualche fonte. Questa fonte può essere un articolo della letteratura, ma può anche essere una fonte meno formale, come enciclopedie, Internet o qualsiasi altro tipo di fonte di informazioni recuperate. Molto spesso, questo compito risale all'implicazione del linguaggio naturale o all'inferenza del linguaggio naturale, dove scopriamo se l'affermazione può essere derivata dal pezzo di testo di prova. Tuttavia, esistono altri approcci, che utilizzano la somiglianza testuale o altri modelli linguistici di grandi dimensioni con vari tipi di suggerimenti. Il compito è sempre se l’affermazione generata è fondata sulle prove o sulla conoscenza che abbiamo del mondo oggi. L'attività può essere vista in modo simile alla generazione di una revisione della letteratura parte di un articolo o di una tesi e alla verifica se gli articoli citati supportano le affermazioni dell'autore. Naturalmente, stiamo parlando di automatizzare questo compito.

Ora, qual è il problema nel chiamare questo compito fact-checking o misurare la fattualità del modello?

Da un punto di vista filosofico, è difficile per noi sapere qual è il fatto. Con tutte le migliori intenzioni, nella loro ricerca della verità, gli scienziati spesso scrivono nelle loro pubblicazioni cose che potrebbero non essere reali e che supereranno facilmente anche la revisione tra pari. Sono qui per sottolineare che le persone fanno del loro meglio, soprattutto nell'editoria scientifica, per essere il più realistiche possibile. Tuttavia, ciò spesso fallisce. Le pubblicazioni possono contenere informazioni distorte, esagerate o interpretate erroneamente a causa di vari fattori, come pregiudizi culturali, programmi politici o mancanza di prove affidabili. Spesso la scienza si sta muovendo lentamente e naturalmente verso i fatti producendo nuove prove e informazioni.

Ci sono stati non pochi eventi nella storia, in cui il consenso comune in materia si è stabilito, per essere scosso dalle sue fondamenta. Pensa ad esempio a Copernico: prima di Copernico, la maggior parte delle persone credeva che la Terra fosse il centro dell'universo e che il sole, la luna e i pianeti ruotassero attorno ad essa. Questo era il modello geocentrico, sostenuto dagli insegnamenti della Chiesa cattolica e dell'antico filosofo greco Aristotele. Tuttavia Copernico, astronomo e matematico polacco, propose un’alternativa radicale: il modello eliocentrico, secondo il quale la Terra e gli altri pianeti orbitavano attorno al sole. Basò la sua teoria su calcoli matematici e osservazioni dei moti celesti. Il suo lavoro fu pubblicato nel libro Sulle rivoluzioni delle sfere celesti nel 1543, poco prima della sua morte. Sebbene la sua teoria dovette affrontare una forte opposizione e critica da parte delle autorità religiose e di alcuni dei suoi contemporanei, gradualmente ottenne accettazione e influenza tra altri scienziati, come Galileo, Keplero e Newton. Il modello eliocentrico ha aperto la strada allo sviluppo dell'astronomia e della fisica moderne e ha cambiato la percezione della posizione della Terra nel cosmo.

Una situazione simile è accaduta con Darwin. Prima di Darwin, la maggior parte delle persone credeva che le specie viventi fossero state create da Dio e fossero rimaste immutate fin dalle loro origini. Questa era la visione creazionista, basata sul racconto biblico della Genesi e sulla teologia naturale del naturalista britannico John Ray. Tuttavia, Darwin, naturalista e geologo inglese, propose un’alternativa radicale: la teoria dell’evoluzione per selezione naturale, secondo la quale le specie viventi discendono da antenati comuni e si modificano nel tempo a causa delle pressioni ambientali e della sopravvivenza del più adatto. Ci sono molti altri esempi, come la relatività di Einstein, la gravità, la teoria di Khan sulle rivoluzioni scientifiche e molti altri.

Questi eventi storici sono chiamati cambiamenti di paradigma, in cui il paradigma di base in determinati campi è stato significativamente spostato. I cambiamenti di paradigma possono essere abbastanza rari, tuttavia, abbiamo anche molte credenze comuni e miti a cui molte persone credono, come ad esempio che la Grande Muraglia cinese possa essere vista dallo spazio, che Napoleone fosse basso o che Colombo scoprì l'America, che si possono trovare anche in articoli scientifici o libri scritti sull'argomento, nonostante siano falsi. Le persone continuano a citare e fare riferimento a opere contenenti queste informazioni e continuano a propagarsi. Pertanto, verificare se le prove nella letteratura di riferimento supportano l’affermazione non è un indicatore sufficientemente valido della fattualità.

Fornire riferimenti alle prove in nostro possesso per alcune affermazioni è il nostro metodo migliore per supportare l'affermazione. Il controllo delle prove a supporto spesso richiede anche l'esame se il riferimento è affidabile, sottoposto a revisione paritaria, pubblicato su una rivista rispettabile, anno di pubblicazione, ecc. Nonostante tutti questi controlli, l'informazione potrebbe ancora essere vittima di un cambiamento di paradigma o di ipotesi appena generate e prove a riguardo e quindi incomplete e obsolete. Ma è il nostro strumento migliore e dovremmo continuare a usarlo. Gli esempi forniti illustrano come la verifica delle fonti non sia sempre un controllo dei fatti, ma piuttosto un modo di affrontare e valutare le affermazioni sulla base delle migliori prove disponibili e degli argomenti più ragionevoli in un dato momento e luogo. Tuttavia, la verifica delle fonti non implica che tutte le affermazioni siano ugualmente valide o che la verità sia relativa o soggettiva. La verifica delle fonti è un modo di ricercare e avvicinare la verità, non di negarla o relativizzarla. La verifica delle fonti riconosce che la verità è complessa, sfaccettata e provvisoria, ma anche che la verità è reale, significativa e raggiungibile.

Pertanto, invece di usare il termine verifica dei fatti, che suggerisce un giudizio binario e definitivo di vero o falso, dovremmo usare il termine verifica delle affermazioni, che riflette una valutazione più sfumata e provvisoria di supportato o non supportato, credibile o dubbio, coerente o contraddittorio. La verifica delle affermazioni non è un verdetto finale, ma un'indagine continua, che ci invita a mettere in discussione, sfidare e rivedere le nostre convinzioni e ipotesi alla luce di nuove prove, nuove fonti e nuove prospettive.

Metodo per generare risposte con il minor numero di allucinazioni possibile, utilizzando la generazione aumentata di recupero (RAG), che ridurrà significativamente il numero di allucinazioni, potenziato con un modello di verifica delle richieste per segnalare eventuali allucinazioni rimanenti. Il metodo è pubblicato in Košprdić, M., Ljajić, A., Bašaragin, B., Medvecki, D., & Milošević, N. “Verif. ai: Verso un sistema di risposta alle domande generativo scientifico open source con risposte referenziate e verificabili. La sedicesima conferenza internazionale sull'evoluzione di Internet INTERNET 2024 (2024).

Il termine giusto per questo compito, a mio avviso, è verifica delle affermazioni, poiché è ciò che stiamo facendo, stiamo verificando se l'affermazione è fondata sulle prove dell'articolo, del documento o della fonte a cui si fa riferimento. Sono stati pubblicati documenti che denominano l'attività di verifica delle attestazioni (ad esempio, controlla questo documento). Quindi, vorrei provare a invitare gli autori che lavorano in quest'area, a evitare di chiamare i loro parametri fattualità, o verifica dei fatti, ma piuttosto chiamarla verificabilità, verifica delle affermazioni, ecc. Posso presumere che il controllo dei fatti dal punto di vista del marketing sembra migliore, ma è una brutta nomea, perché non dà il giusto trattamento e credito alla ricerca dei fatti e della verità nella scienza, che è un compito molto più complesso.

C’è un grosso rischio in quel nome anche dal punto di vista pratico. In una situazione in cui “fidiamo assolutamente” che una fonte sia “assolutamente fattuale”, perdiamo la capacità di esaminare criticamente questa affermazione ulteriormente. Nessuno avrebbe il coraggio o la capacità di farlo. Il nocciolo della scienza e del pensiero critico è che esaminiamo ogni cosa alla ricerca della verità. Oltre a ciò, se l’intelligenza artificiale nella sua forma attuale misurasse l’attendibilità e verificasse i fatti solo sulla base delle conoscenze e del consenso attuali, corriamo il rischio di arrestare il progresso e di diventare particolarmente avversi ai futuri cambiamenti di paradigma.

Tuttavia, questo rischio non riguarda solo le scienze. Lo stesso argomento su ciò che è un fatto e sull’esclusione del pensiero critico anche da interi sistemi educativi è una caratteristica comune dei regimi autoritari. Se valutassimo in modo meno critico ciò che ci viene servito come fatto, potremmo cadere vittime di futuri autoritari che lo utilizzerebbero e integrerebbero i loro pregiudizi in ciò che è considerato “fatto”. Pertanto, stiamo attenti a ciò che chiamiamo fatto, poiché nella maggior parte dei casi si tratta di un'affermazione. Un'affermazione può essere vera in base alla nostra attuale comprensione del mondo e dell'universo, oppure no. Inoltre, la correttezza o meno di un'affermazione può cambiare con le nuove prove e le nuove informazioni scoperte. Una delle grandi sfide dei sistemi di intelligenza artificiale, e in particolare della rappresentazione della conoscenza, secondo me, sarà: come rappresentare la conoscenza che rappresenta la nostra attuale comprensione dell’Universo e che rimarrà aggiornata nel tempo.

Se non diversamente specificato, tutte le immagini sono dell'autore.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *