Recentemente, modelli linguistici di grandi dimensioni hanno mostrato un’enorme capacità nel generare testi simili a quelli umani. Esistono molti parametri per misurare quanto un testo generato da modelli linguistici di grandi dimensioni sia vicino/simile al testo umano di riferimento. In effetti, colmare questo divario è un’area di ricerca attiva.
In questo post, esaminiamo due metriche ben note per la valutazione automatica dei testi generati dalla macchina.
Considera che ti viene fornito un testo di riferimento generato dall’uomo e un testo generato dalla macchina generato da un LLM. Per calcolare la somiglianza semantica tra questi due testi, BERTScore calcola la somiglianza del coseno a coppie degli incorporamenti di token. Vedi l’immagine qui sotto:
Ecco il testo di riferimento “fa freddo oggi” e il testo candidato generato dalla macchina lo è “fa freddo oggi”. Se calcoliamo la somiglianza n-grammi questi due testi avranno un punteggio basso. Sappiamo però che sono semanticamente molto simili. COSÌ BERTScore calcola l’incorporamento contestuale di ciascun token sia nel testo di riferimento che nel testo candidato e sulla base di questi vettori di incorporamento, calcola le somiglianze del coseno a coppie.
Sulla base delle somiglianze del coseno a coppie, possiamo calcolare precisione, richiamo e punteggio F1. Per farlo, procedi come segue:
- Ricordiamo: otteniamo la massima somiglianza del coseno per ogni token nel testo di riferimento e otteniamo la loro media
- Precisione: otteniamo la massima somiglianza del coseno per ogni token nel testo candidato e otteniamo la loro media
- Punteggio F1: la media armonica di precisione e richiamo
BERTScore(1) propone anche una modifica al punteggio precedente denominata come “ponderazione dell’importanza”. In “ponderazione dell’importanza”, considera il fatto che le parole rare che sono comuni tra due frasi sono più…
Fonte: towardsdatascience.com