Tutto quello che dovresti sapere sulla valutazione di modelli linguistici di grandi dimensioni | di Donato Riccio | Agosto 2023 | Intelligenza-Artificiale

Indice contenuti

Modelli linguistici aperti

Dalla perplessità alla misurazione dell’intelligenza generale

Immagine generata dall’autore utilizzando Stable Diffusion.

Man mano che i modelli linguistici open source diventano più facilmente disponibili, perdersi in tutte le opzioni è facile.

Come determiniamo le loro prestazioni e le confrontiamo? E come possiamo affermare con sicurezza che un modello è migliore di un altro?

Questo articolo fornisce alcune risposte presentando metriche di formazione e valutazione e benchmark generali e specifici per avere un quadro chiaro delle prestazioni del tuo modello.

Se te lo sei perso, dai un’occhiata al primo articolo della serie Open Language Models:

I modelli linguistici definiscono una distribuzione di probabilità su un vocabolario di parole per selezionare la parola successiva più probabile in una sequenza. Dato un testo, un modello linguistico assegna una probabilità a ciascuna parola della lingua e viene selezionata quella più probabile.

Perplessità misura quanto bene un modello linguistico può prevedere la parola successiva in una determinata sequenza. Come metrica di addestramento, mostra quanto bene i modelli hanno appreso il proprio set di addestramento.

Non entreremo nei dettagli matematici ma intuitivamente, minimizzare la perplessità significa massimizzare la probabilità prevista.

In altre parole, il modello migliore è quello che non lo è sorpreso quando vede il nuovo testo perché se lo aspetta, il che significa che ha già previsto bene quali parole verranno dopo nella sequenza.

Sebbene la perplessità sia utile, non considera il significato dietro le parole o il contesto in cui vengono utilizzate, ed è influenzata dal modo in cui tokenizziamo i nostri dati: modelli linguistici diversi con vocabolari e tecniche di tokenizzazione diversi possono produrre punteggi di perplessità diversi, rendendo confronti diretti meno significativi.

La perplessità è una metrica utile ma limitata. Lo utilizziamo principalmente per tenere traccia dei progressi durante l’addestramento di un modello o per confrontare…