GPT-4 è più grande e migliore di GPT-3. GPT-4 può redigere discorsi eloquenti, superare esami standardizzatie persino interpretare le immagini. Dal suo rilascio il 14 marzo 2023, OpenAI continua a iterare e aggiornare GPT-4 per migliorare le sue prestazioni per i milioni di query che riceve ogni giorno. Tuttavia, è l’ultima versione di GPT-4 nell’API di OpenAI, chiamata “gpt-4”, in realtà migliore della versione iniziale da marzo, denominato “gpt-4–0314”?
Dal punto di vista di un ingegnere di machine learning presso Ginocchiaquesto articolo è un continuazione di una serie di discussioni che evidenziano un paradigma di test per i LLMconfrontando le prestazioni dei modelli GPT in diversi scenari.
Anche se il comportamento complessivo di “gpt-4” potrebbe essere migliore di “gpt-4–0314” in base ai risultati di vari benchmark e parametri di test, la parola “migliore” è un termine relativo. Gli utenti hanno condiviso online che loro vissuto un recente regressione nelle prestazioni del modello GPT-4 in una varietà di contesti. Un esempio virale della regressione di GPT-4 nel tempo è che non è riuscito a capire che 17077 era un numero primo così bene come prima.
Naturalmente, l’utilizzo del modello più aggiornato quando la sua performance soggettiva e oggettiva diminuisce continuamente è problematico. Quali altre regressioni potrebbero segretamente esistere?
Possiamo testare le regressioni nascoste di GPT-4 utilizzando il CoQA (Risposte alle domande conversazionali)**insieme di dati. Il set di dati CoQA contiene più articoli, ciascuno con una serie di domande corrispondenti, in cui la domanda di comprensione N è necessario per rispondere alla domanda n+1. Prendendo come esempio un articolo sulla storia dello sport, ecco alcune potenziali domande:
1. Chi è l’olimpionico più decorato?
2. Da quale paese provengono?
3. Quante medaglie d’oro hanno?
È impossibile rispondere individualmente a queste domande perché non conosceremmo la persona di interesse senza rispondere alla prima domanda.
Risultati
Ad alto livello, GPT-4 offre prestazioni significativamente migliori di GPT-3ma non è ancora perfetto:
+------------+-------------+-------------+-----------+
| model | avg_BERT_F1 | avg_ROUGE_1 | n_correct |
+------------+-------------+-------------+-----------+
| gpt-4 | 0.92729 | 0.77735 | 4708 |
| gpt-4–0314 | 0.92497 | 0.77284 | 4718 |
| gpt-3 | 0.90845 | 0.71676 | 4348 |
+------------+-------------+-------------+-----------+
Nota: “gpt-3” è l’ultimo modello Turbo della serie GPT-3.5 e n_correct è il conteggio delle domande in cui la media delle sue BERT_F1 E ROUGE_1 è maggiore di 0,75
Da quanto sopra, come mai? “gpt-4–0314” è peggiore in termini di metrica (BERT_F1 e ROUGE_1) tuttavia ha risposto alle domande in modo più corretto rispetto a “gpt-4”? Forse entrambi i modelli rispondono erroneamente alle stesse domande, ma non vi è alcuna garanzia che i set di errori “gpt-4” e “gpt-4–0314” siano omogenei. Partendo dal presupposto che un modello più nuovo dovrebbe essere più performante, la ragione di questa differenza o regressione non è spiegabile quando osserviamo i parametri. Possiamo approfondire la comprensione delle potenziali cause profonde del fallimento suddividendo logicamente i dati in gruppi più piccoli.
Quando stratifichiamo il set di dati CoQA rispetto alla fonte dati di ciascun articolo, scopriremo che la domanda-risposta i dati relativi agli articoli di Wikipedia hanno ottenuto risultati migliori nel modello GPT-4 più recente ma peggio nel complesso e in ogni altra fonte di dati.
Fonte: towardsdatascience.com