Valutazione della generazione di testo in modelli linguistici di grandi dimensioni |  di Mina Ghashami |  Gennaio 2024

 | Intelligenza-Artificiale

Metriche per misurare il divario tra testo neurale e testo umano

Immagine da unsplash.com

Recentemente, modelli linguistici di grandi dimensioni hanno mostrato un’enorme capacità nel generare testi simili a quelli umani. Esistono molti parametri per misurare quanto un testo generato da modelli linguistici di grandi dimensioni sia vicino/simile al testo umano di riferimento. In effetti, colmare questo divario è un’area di ricerca attiva.

In questo post, esaminiamo due metriche ben note per la valutazione automatica dei testi generati dalla macchina.

Considera che ti viene fornito un testo di riferimento generato dall’uomo e un testo generato dalla macchina generato da un LLM. Per calcolare la somiglianza semantica tra questi due testi, BERTScore calcola la somiglianza del coseno a coppie degli incorporamenti di token. Vedi l’immagine qui sotto:

Immagine da (1)

Ecco il testo di riferimento “fa freddo oggi” e il testo candidato generato dalla macchina lo è “fa freddo oggi”. Se calcoliamo la somiglianza n-grammi questi due testi avranno un punteggio basso. Sappiamo però che sono semanticamente molto simili. COSÌ BERTScore calcola l’incorporamento contestuale di ciascun token sia nel testo di riferimento che nel testo candidato e sulla base di questi vettori di incorporamento, calcola le somiglianze del coseno a coppie.

Immagine da (1)

Sulla base delle somiglianze del coseno a coppie, possiamo calcolare precisione, richiamo e punteggio F1. Per farlo, procedi come segue:

  • Ricordiamo: otteniamo la massima somiglianza del coseno per ogni token nel testo di riferimento e otteniamo la loro media
  • Precisione: otteniamo la massima somiglianza del coseno per ogni token nel testo candidato e otteniamo la loro media
  • Punteggio F1: la media armonica di precisione e richiamo

BERTScore(1) propone anche una modifica al punteggio precedente denominata come “ponderazione dell’importanza”. In “ponderazione dell’importanza”, considera il fatto che le parole rare che sono comuni tra due frasi sono più…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *