Sviluppare una comprensione di una varietà di benchmark e punteggi LLM, inclusa un’intuizione di quando potrebbero essere utili per il tuo scopo
Sembra che quasi ogni settimana venga lanciato al pubblico un nuovo modello linguistico di grandi dimensioni (LLM). Con ogni annuncio di un LLM, questi fornitori pubblicizzano numeri di prestazioni che possono sembrare piuttosto impressionanti. La sfida che ho riscontrato è che esiste un’ampia gamma di parametri di prestazione a cui si fa riferimento in questi comunicati stampa. Sebbene ce ne siano alcuni che compaiono più spesso degli altri, sfortunatamente non esistono semplicemente uno o due parametri “vai a”. Se vuoi vederne un esempio tangibile, controlla la pagina per le prestazioni di GPT-4. Fa riferimento a molti benchmark e punteggi diversi!
La prima domanda che ci si potrebbe porre è: “Perché non possiamo semplicemente concordare di utilizzare un unico parametro?” In breve, non esiste un modo pulito per valutare le prestazioni LLM, quindi ogni metrica delle prestazioni cerca di fornire una valutazione quantitativa per un dominio mirato. Inoltre, molte di queste metriche prestazionali hanno “metriche secondarie” che calcolano la metrica in modo leggermente diverso rispetto alla metrica originale. Quando ho iniziato a svolgere ricerche per questo post del blog, la mia intenzione era quella di coprire ognuno di questi benchmark e punteggi, ma ho subito scoperto che se lo avessi fatto, avremmo coperto oltre 50 parametri diversi!
Poiché valutare ogni singolo parametro non è esattamente fattibile, quello che ho scoperto è che possiamo suddividere questi vari parametri di riferimento e punteggi in categorie di ciò che generalmente cercano di valutare. Nella parte restante di questo post tratteremo queste varie categorie e forniremo anche esempi specifici di metriche popolari che rientrano in ciascuna di queste categorie. L’obiettivo di questo post è che tu possa uscire da questo post con un’idea generale di quale metrica di prestazione stai valutando per il tuo caso d’uso specifico.
Le sei categorie che valuteremo in questo post includono quanto segue. Nota: non esiste uno “standard di settore” specifico su come sono state create queste categorie. Queste categorie sono state create in base al modo in cui le sento citare più spesso:
- Parametri di conoscenza generale
Fonte: towardsdatascience.com