Possiamo impedire ai LLM di avere allucinazioni? | di Juras Juršėnas | Agosto 2023 | Intelligenza-Artificiale

Indice contenuti

Opinione

Uno dei maggiori ostacoli all’adozione diffusa dell’LLM potrebbe essere intrinsecamente irrisolvibile.

fotografato da Google DeepMind SU Unsplash

Sebbene i Large Language Models (LLM) abbiano catturato l’attenzione di quasi tutti, l’implementazione su larga scala di tale tecnologia è leggermente limitata a causa di un suo aspetto piuttosto fastidioso: questi modelli tendono ad avere allucinazioni. In termini semplici, a volte si inventano semplicemente cose e, peggio di tutto, spesso sembrano molto convincenti.

Le allucinazioni, frequenti o meno, portano con sé due problemi principali. Non possono essere implementate direttamente in molti campi sensibili o fragili dove un singolo errore può costare molto caro. Inoltre, semina sfiducia generale poiché ci si aspetta che gli utenti verifichino tutto ciò che esce da un LLM, il che, almeno in parte, vanifica lo scopo di tale tecnologia.

Anche il mondo accademico sembra pensare che le allucinazioni siano un grosso problema, poiché ci sono dozzine di articoli di ricerca nel 2023 che discutono e tentano di risolvere il problema. Io, tuttavia, tenderebbe ad essere d’accordo con Yann LeCunLo scienziato capo dell’intelligenza artificiale di Meta, che le allucinazioni non sono affatto risolvibili. Avremmo bisogno di un rinnovamento completo della tecnologia per eliminare il problema.

Ci sono due aspetti importanti in qualsiasi LLM che, penso, rendono irrisolvibili le allucinazioni. Partendo dal supporto tecnologico piuttosto ovvio, gli LLM, come qualsiasi altro modello di apprendimento automatico, sono di natura stocastica. In termini semplici, fanno previsioni.

Sebbene siano certamente molto più avanzati del “glorificato completamento automatico”, la tecnologia sottostante utilizza ancora previsioni statistiche sui token. È sia uno dei punti di forza che di debolezza degli LLM.

Dal lato forte, abbiamo visto quanto siano straordinariamente bravi nel prevedere cosa dovrebbe accadere dopo un input (escludendo qualsiasi tentativo intenzionale di rovinare un output). Gli utenti possono commettere diversi tipi di errori, come lasciare un errore di battitura, fraintendere il significato di una parola, ecc., ed è probabile che gli LLM ottengano comunque il risultato corretto.

Ai tempi in cui furono creati i primi giochi basati su testo, agli utenti veniva chiesto di inserire comandi senza errori o spazio di interpretazione. Un comando come “sposta nord” verrebbe restituito in errore se l’utente immettesse “sposta morte”. Un LLM, tuttavia, potrebbe essere in grado di dedurre il significato in entrambi i casi. In questo senso, la tecnologia è davvero affascinante.

Tuttavia, mostra anche una debolezza. Qualsiasi input ha un ampio albero decisionale potenziale per la scelta del token. In termini semplici, esiste sempre una vasta gamma di modi in cui un modello può creare un output. All’interno di questo ampio intervallo, una parte relativamente piccola rappresenta la decisione “corretta”.

Mentre ce ne sono numerosi opzioni di ottimizzazione disponibiliil problema in sé non è risolvibile. Ad esempio, se aumentiamo la probabilità di fornire una risposta specifica, LLM diventa una tabella di ricerca, quindi vorremmo mantenere un equilibrio. La tecnologia sottostante si basa semplicemente su previsioni stocastiche e deve esserci spazio per una gamma più ampia di token di output forniti.

Ma c’è un altro problema che i LLM non possono risolvere, almeno allo stato attuale. È un po’ più effimero e astratto poiché si riferisce all’epistemologia, il campo della filosofia che studia la natura della conoscenza. A prima vista, il problema è semplice: come facciamo a sapere quali affermazioni sono vere e come otteniamo tale conoscenza? Dopotutto, un’allucinazione è semplicemente un insieme di false affermazioni post-hocquindi, se potessimo creare un modo in cui il modello possa verificare di aver fatto un’affermazione falsa e rimuoverla, ciò risolverebbe il problema.

Seguendo le orme della filosofia, possiamo distinguere due tipi di possibili enunciati: analitici e sintetici. Le prime sono affermazioni vere per definizione (uno degli esempi più comuni è “uno scapolo è un uomo non sposato”). In termini semplici, possiamo trovare affermazioni vere analizzando la lingua stessa e non è richiesta alcuna esperienza esterna.

Le affermazioni sintetiche sono affermazioni che sono vere in virtù di qualche forma di esperienza, come “c’è una mela sul tavolo davanti a me”. Non c’è modo di sapere se una simile affermazione sia vera senza fare riferimento all’esperienza diretta. La pura analisi linguistica non serve a determinare se è vero o falso.

Dovrei notare che la distinzione tra queste affermazioni è stata fortemente contestata per centinaia di anni, ma la discussione è in gran parte irrilevante per i LLM. Come suggerisce il nome, sono una macchina di analisi e previsione linguistica altamente avanzata.

Seguendo la distinzione tra i due tipi, possiamo vedere che gli LLM avrebbero poco o nessun problema con le affermazioni analitiche (o almeno tanto quanto gli umani). Tuttavia, non hanno accesso all’esperienza o al mondo in generale. Non hanno modo di sapere che alcune affermazioni sono vere in virtù di un evento.

Il problema principale è che il numero di affermazioni analitiche è significativamente inferiore all’insieme di tutte le affermazioni sintetiche. Poiché un LLM non ha modo di verificare se queste affermazioni sono vere, noi, come esseri umani, dobbiamo fornire loro tali informazioni.

In quanto tali, gli LLM si trovano ad affrontare una sfida. L’insieme di tutti i possibili output avrà sempre un certo numero di affermazioni sintetiche, ma per il modello tutte sono indipendenti dal valore di verità. In parole povere, “l’assassino di Giulio Cesare era Bruto” (ce n’erano tanti, ma in questo caso non importa) e “l’assassino di Giulio Cesare era Abramo Lincoln” equivalgono a un modello.

Una controargomentazione potrebbe essere che non abbiamo avuto alcuna esperienza diretta nemmeno di quegli eventi. Ne abbiamo appena letto nei libri. Ma la scoperta della veridicità di tale affermazione si basa sulla ricostruzione dei resoconti sopravvissuti e su un’ampia gamma di altre prove archeologiche.

Un esempio più semplice di affermazione (anche se meno rilevante) sarebbe “oggi piove”. È impossibile determinare come vere tali affermazioni per un LLM poiché necessita dell’accesso all’esperienza del mondo reale al momento della query.

In un certo senso, il problema epistemologico si risolve da solo. Il nostro corpus letterario renderebbe significativamente più probabile l’affermazione che “l’assassino di Giulio Cesare era Bruto” poiché è presente più frequentemente. Tuttavia, ancora una volta, il problema è che una soluzione di questo tipo si basa sulla formazione di un LLM su tutte le informazioni testuali disponibili, il che, ovviamente, è impossibile. Inoltre, ciò renderebbe altri risultati meno veritieri non del tutto assenti dall’insieme di tutti i possibili risultati.

In quanto tale, la qualità dei dati diventa un fattore importante, ma tale qualità può essere giudicata solo da osservatori umani. Anche nei casi in cui i modelli vengono addestrati su enormi quantità di dati, avviene un certo processo di selezione, il che significa che il tasso di errore per le dichiarazioni sintetiche non può essere eliminato.

Credo che il problema di impedire ai modelli di avere allucinazioni sia irrisolvibile. Innanzitutto, la tecnologia stessa si basa su un processo stocastico che inevitabilmente, su un gran numero di risultati, porterà a previsioni errate.

Oltre all’ostacolo tecnologico, c’è la questione se gli LLM possano esprimere giudizi di valore di verità sulle affermazioni, cosa che, ancora una volta, credo sia impossibile poiché non hanno accesso al mondo reale. La questione è leggermente attenuata dalle diverse funzioni dei motori di ricerca che ora sono disponibili per molti LLM, secondo le quali possono verificare determinate affermazioni.

Potrebbe essere possibile, tuttavia, raccogliere un database rispetto al quale testare le affermazioni, ma ciò richiederebbe qualcosa che va oltre la tecnologia stessa, il che ci riporta al problema iniziale.