Quantificare le regressioni nascoste di GPT-4 nel tempo | di Mark Chen | Settembre 2023 | Intelligenza-Artificiale

Indice contenuti

Parte 3 di uno studio sull’utilizzo e sui test dell’intelligenza artificiale generativa

GPT-4 è più grande e migliore di GPT-3. GPT-4 può redigere discorsi eloquenti, superare esami standardizzatie persino interpretare le immagini. Dal suo rilascio il 14 marzo 2023, OpenAI continua a iterare e aggiornare GPT-4 per migliorare le sue prestazioni per i milioni di query che riceve ogni giorno. Tuttavia, è l’ultima versione di GPT-4 nell’API di OpenAI, chiamata “gpt-4”, in realtà migliore della versione iniziale da marzo, denominato “gpt-4–0314”?

Dal punto di vista di un ingegnere di machine learning presso Ginocchiaquesto articolo è un continuazione di una serie di discussioni che evidenziano un paradigma di test per i LLMconfrontando le prestazioni dei modelli GPT in diversi scenari.

Anche se il comportamento complessivo di “gpt-4” potrebbe essere migliore di “gpt-4–0314” in base ai risultati di vari benchmark e parametri di test, la parola “migliore” è un termine relativo. Gli utenti hanno condiviso online che loro vissuto un recente regressione nelle prestazioni del modello GPT-4 in una varietà di contesti. Un esempio virale della regressione di GPT-4 nel tempo è che non è riuscito a capire che 17077 era un numero primo così bene come prima.

Naturalmente, l’utilizzo del modello più aggiornato quando la sua performance soggettiva e oggettiva diminuisce continuamente è problematico. Quali altre regressioni potrebbero segretamente esistere?

Possiamo testare le regressioni nascoste di GPT-4 utilizzando il CoQA (Risposte alle domande conversazionali)**insieme di dati. Il set di dati CoQA contiene più articoli, ciascuno con una serie di domande corrispondenti, in cui la domanda di comprensione N è necessario per rispondere alla domanda n+1. Prendendo come esempio un articolo sulla storia dello sport, ecco alcune potenziali domande:

1. Chi è l’olimpionico più decorato?
2. Da quale paese provengono?
3. Quante medaglie d’oro hanno?

È impossibile rispondere individualmente a queste domande perché non conosceremmo la persona di interesse senza rispondere alla prima domanda.

Risultati

Ad alto livello, GPT-4 offre prestazioni significativamente migliori di GPT-3ma non è ancora perfetto:

+------------+-------------+-------------+-----------+
|   model    | avg_BERT_F1 | avg_ROUGE_1 | n_correct |
+------------+-------------+-------------+-----------+
| gpt-4      |     0.92729 |     0.77735 |      4708 |
| gpt-4–0314 |     0.92497 |     0.77284 |      4718 |
| gpt-3      |     0.90845 |     0.71676 |      4348 |
+------------+-------------+-------------+-----------+

Nota: “gpt-3” è l’ultimo modello Turbo della serie GPT-3.5 e n_correct è il conteggio delle domande in cui la media delle sue BERT_F1 E ROUGE_1 è maggiore di 0,75

Da quanto sopra, come mai? “gpt-4–0314” è peggiore in termini di metrica (BERT_F1 e ROUGE_1) tuttavia ha risposto alle domande in modo più corretto rispetto a “gpt-4”? Forse entrambi i modelli rispondono erroneamente alle stesse domande, ma non vi è alcuna garanzia che i set di errori “gpt-4” e “gpt-4–0314” siano omogenei. Partendo dal presupposto che un modello più nuovo dovrebbe essere più performante, la ragione di questa differenza o regressione non è spiegabile quando osserviamo i parametri. Possiamo approfondire la comprensione delle potenziali cause profonde del fallimento suddividendo logicamente i dati in gruppi più piccoli.

Quando stratifichiamo il set di dati CoQA rispetto alla fonte dati di ciascun articolo, scopriremo che la domanda-risposta i dati relativi agli articoli di Wikipedia hanno ottenuto risultati migliori nel modello GPT-4 più recente ma peggio nel complesso e in ogni altra fonte di dati.

Fonte: towardsdatascience.com