Suggerimenti per ottenere la parte di generazione corretta nel recupero della generazione aumentata | di Aparna Dhinakaran | Aprile 2024 | Intelligenza-Artificiale

Indice contenuti

Immagine creata dall'autore utilizzando Dall-E 3

Risultati di esperimenti per valutare e confrontare GPT-4, Claude 2.1 e Claude 3.0 Opus

I miei ringraziamenti a Evan Jolley per il suo contributo a questo pezzo

Sembra che ogni giorno vengano pubblicate nuove valutazioni dei sistemi RAG e molte di esse si concentrano sulla fase di recupero del framework. Tuttavia, l’aspetto della generazione – il modo in cui un modello sintetizza e articola le informazioni recuperate – può avere nella pratica un significato uguale se non maggiore. Molti casi d'uso in produzione non restituiscono semplicemente un fatto dal contesto, ma richiedono anche la sintesi del fatto in una risposta più complicata.

Abbiamo eseguito diversi esperimenti per valutare e confrontare GPT-4, Claude 2.1 e Claudio 3 Capacità di generazione di Opus. Questo articolo descrive in dettaglio la nostra metodologia di ricerca, i risultati e le sfumature del modello incontrate lungo il percorso, nonché il motivo per cui questo è importante per le persone che costruiscono con l'intelligenza artificiale generativa.

Tutto il necessario per riprodurre i risultati può essere trovato in questo Repositorio GitHub.

Asporto

Sebbene i risultati iniziali indichino che Claude supera GPT-4, i test successivi rivelano che con il prompt engineering strategico GPT-4 ha dimostrato prestazioni superiori in una gamma più ampia di valutazioni. I comportamenti intrinseci del modello e l'ingegneria tempestiva contano MOLTO nei sistemi RAG.
La semplice aggiunta di “Spiegati e poi rispondi alla domanda” a un modello di richiesta migliora significativamente (più di 2 volte) le prestazioni di GPT-4. È chiaro che quando un LLM parla e risponde, sembra aiutare a sviluppare idee. È possibile che, spiegando, un modello rinforzi la risposta giusta nello spazio di inclusione/attenzione.

Mentre il recupero è responsabile dell’identificazione e del recupero delle informazioni più pertinenti, è la fase di generazione che prende questi dati grezzi e li trasforma in una risposta coerente, significativa e contestualmente appropriata. La fase generativa ha il compito di sintetizzare le informazioni recuperate, colmare le lacune e presentarle in un modo facilmente comprensibile e pertinente alla query dell'utente.

In molte applicazioni del mondo reale, il valore dei sistemi RAG non risiede solo nella loro capacità di individuare un fatto o un’informazione specifica, ma anche nella loro capacità di integrare e contestualizzare tali informazioni all’interno di un quadro più ampio. La fase di generazione è ciò che consente ai sistemi RAG di andare oltre il semplice recupero dei fatti e fornire risposte veramente intelligenti e adattive.

Il test iniziale che abbiamo eseguito prevedeva la generazione di una stringa di data da due numeri recuperati casualmente: uno che rappresenta il mese e l'altro il giorno. I modelli avevano il compito di:

Recupero del numero casuale n. 1
Isolando l'ultima cifra e incrementando di 1
Generazione di un mese per la nostra stringa di data dal risultato
Recupero del numero casuale n. 2
Generazione del giorno per la nostra stringa di data dal numero casuale 2

Ad esempio, i numeri casuali 4827143 e 17 rappresenterebbero il 17 aprile.

Questi numeri sono stati collocati a varie profondità all'interno di contesti di varia lunghezza. Inizialmente i modelli hanno avuto difficoltà con questo compito.

Figura 1: risultati iniziali del test (immagine per autore)

Sebbene nessuno dei due modelli abbia funzionato bene, Claude 2.1 ha sovraperformato significativamente GPT-4 nel nostro test iniziale, quasi quadruplicando il suo tasso di successo. È stato qui che la natura prolissa di Claude – fornendo risposte dettagliate ed esplicative – sembrava dargli un netto vantaggio, risultando in risultati più accurati rispetto alle risposte inizialmente concise di GPT-4.

Spinti da questi risultati inaspettati, abbiamo introdotto una nuova variabile nell’esperimento. Abbiamo incaricato GPT-4 di “spiegarsi e poi rispondere alla domanda”, un suggerimento che ha incoraggiato una risposta più dettagliata simile all'output naturale di Claude. L’impatto di questo piccolo aggiustamento è stato profondo.

Figura 2: test iniziale con risultati tempestivi mirati (immagine per autore)

Le prestazioni di GPT-4 sono migliorate notevolmente, ottenendo risultati impeccabili nei test successivi. Anche i risultati di Claude sono migliorati in misura minore.

Questo esperimento non solo evidenzia le differenze nel modo in cui i modelli linguistici affrontano le attività di generazione, ma mostra anche il potenziale impatto del prompt engineering sulle loro prestazioni. La verbosità che sembrava essere un vantaggio di Claude si è rivelata una strategia replicabile per GPT-4, suggerendo che il modo in cui un modello elabora e presenta il suo ragionamento può influenzare in modo significativo la sua accuratezza nelle attività di generazione. Nel complesso, l'inclusione della riga apparentemente minuta “spiegati” al nostro suggerimento ha avuto un ruolo nel migliorare le prestazioni dei modelli in tutti i nostri esperimenti.

Figura 3: Quattro ulteriori test utilizzati per valutare la generazione (immagine per autore)

Abbiamo condotto altri quattro test per valutare la capacità dei modelli prevalenti di sintetizzare e trasformare le informazioni recuperate in vari formati:

Concatenazione di stringhe: Combinazione di pezzi di testo per formare stringhe coerenti, testando le capacità di manipolazione del testo di base dei modelli.
Formattazione del denaro: formattazione dei numeri come valuta, arrotondamento e calcolo delle variazioni percentuali per valutare la precisione dei modelli e la capacità di gestire dati numerici.
Mappatura delle date: Conversione di una rappresentazione numerica nel nome e nella data di un mese, che richiede una combinazione di recupero e comprensione contestuale.
Aritmetica modulo: Esecuzione di operazioni su numeri complessi per testare le capacità di generazione matematica dei modelli.

Non sorprende che ciascun modello abbia mostrato ottime prestazioni nella concatenazione di stringhe, riaffermando la precedente comprensione secondo cui la manipolazione del testo è un punto di forza fondamentale dei modelli linguistici.

Figura 4: risultati del test di formattazione del denaro (immagine per autore)

Per quanto riguarda il test di formattazione del denaro, Claude 3 e GPT-4 hanno funzionato in modo quasi impeccabile. Le prestazioni di Claude 2.1 sono state generalmente inferiori nel complesso. La precisione non variava considerevolmente in base alla lunghezza del token, ma era generalmente inferiore quando l'ago era più vicino all'inizio della finestra di contesto.

Figura 5: Risultati normali del test del pagliaio (immagine dell'autore)

Nonostante i risultati stellari nei test di generazione, la precisione di Claude 3 è diminuita in un esperimento di solo recupero. In teoria, il semplice recupero dei numeri dovrebbe essere un compito più semplice che anche la loro manipolazione, rendendo sorprendente questo calo delle prestazioni e un'area in cui stiamo pianificando ulteriori test da esaminare. Semmai, questo calo controintuitivo non fa altro che confermare ulteriormente l'idea che sia il recupero che la generazione dovrebbero essere testati quando si sviluppa con RAG.

Testando vari compiti di generazione, abbiamo osservato che, sebbene entrambi i modelli eccellano in compiti umili come la manipolazione delle corde, i loro punti di forza e di debolezza diventare evidente in scenari più complessi. Gli LLM non sono ancora bravi in matematica! Un altro risultato chiave è stato che l'introduzione della richiesta “spiegati” ha notevolmente migliorato le prestazioni di GPT-4, sottolineando l'importanza del modo in cui i modelli vengono sollecitati e di come articolano il loro ragionamento per ottenere risultati accurati.

Questi risultati hanno implicazioni più ampie per la valutazione degli LLM. Confrontando modelli come il prolisso Claude e il meno prolisso GPT-4, diventa evidente che i criteri di valutazione devono andare oltre la semplice correttezza. La verbosità delle risposte di un modello introduce una variabile che può influenzare in modo significativo la prestazione percepita. Questa sfumatura potrebbe suggerire che le future valutazioni del modello dovrebbero considerare la lunghezza media delle risposte come un fattore da notare, fornendo una migliore comprensione delle capacità di un modello e garantendo un confronto più equo.

Fonte: towardsdatascience.com