Valutazione di modelli linguistici di grandi dimensioni.  Come fai a sapere quanto è buono il tuo LLM?  A… |  di Michał Oleszak |  Gennaio 2024

 | Intelligenza-Artificiale

IA generativa

Come fai a sapere quanto è buono il tuo LLM? Una guida completa.

19 minuti di lettura

14 ore fa

Divenuta mainstream più di un anno fa con il rilascio di Stable Diffusion e ChatGPT, l’intelligenza artificiale generativa si sta sviluppando in modo incredibilmente veloce. Quasi ogni settimana vengono annunciati nuovi modelli che affermano di battere lo stato dell’arte. Ma come facciamo a sapere se sono effettivamente buoni? Come confrontiamo e classifichiamo i modelli generativi in ​​assenza di verità fondamentali, le soluzioni “corrette”? Infine, se il LLM utilizza dati esterni attraverso un sistema di Retrieval-Augmented Generation o RAG, come giudichiamo se fa un uso corretto di questi dati?

In una serie in due parti, esploreremo i protocolli di valutazione per l’intelligenza artificiale generativa. Questo post si concentra sulla generazione di testo e sui modelli linguistici di grandi dimensioni. Tieni gli occhi aperti per il seguito in cui discuteremo dei metodi di valutazione per i generatori di immagini.

Cominciamo notando la distinzione tra modelli generativi e discriminativi. I modelli generativi generano nuovi campioni di dati, siano essi testo, immagini, audio, video, rappresentazioni latenti o anche dati tabulari, simili ai dati di training del modello. I modelli discriminativi, d’altro canto, apprendono i confini decisionali attraverso i dati di training, permettendoci di risolvere classificazione, regressione e altri compiti.

Sfide di valutazione GenAI

La valutazione dei modelli generativi è intrinsecamente più impegnativa rispetto ai modelli discriminativi a causa della natura dei loro compiti. Le prestazioni di un modello discriminativo sono relativamente semplici da misurare utilizzando parametri appropriati per l’attività, come la precisione per le attività di classificazione, l’errore quadratico medio per le attività di regressione o l’intersezione sull’unione per le attività di rilevamento degli oggetti.

La valutazione dei modelli generativi è intrinsecamente più impegnativa rispetto ai modelli discriminativi a causa della natura dei loro compiti.

Al contrario, i modelli generativi mirano a produrre contenuti nuovi e mai visti prima. Valutare la qualità, la coerenza, la diversità e l’utilità di questi campioni generati è più complesso.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *