Scopri come i modelli generativi si deteriorano quando vengono addestrati sui dati che generano e cosa fare al riguardo
Le recenti scoperte nell’intelligenza artificiale generativa hanno introdotto modelli di intelligenza artificiale disponibili al pubblico in grado di produrre testi, immagini e suoni altamente realistici e complessi che rivoluzionano la creazione di contenuti.
Questi modelli sono stati addestrati su grandi set di dati recuperati da Internet. Nel caso dei dati di testo, ad esempio, i Large Language Models (LLM) come ChatGPT sono stati per lo più addestrati su testo generato dall’uomo trovato online.
I modelli generativi hanno acquisito ampia notorietà e una rapida adozione nella società, al punto che sempre più contenuti generati dall’intelligenza artificiale finiscono su Internet, che è la principale fonte dei loro dati di formazione.
Vediamo che qui si forma un circolo vizioso: i modelli generativi saranno inevitabilmente addestrati su dati sintetici prodotti dall’intelligenza artificiale generativa e non dagli esseri umani. Il che ci porta alla domanda: se ciò accadesse, come si comporteranno i modelli?
Cosa accadrà a GPT-{n} una volta che gli LLM contribuiranno a gran parte della lingua trovata online?
Questa è la domanda posta da un team di ricercatori che ha pubblicato lo studio La maledizione della ricorsione: la formazione sui dati generati fa dimenticare i modelli (I. Shumailov et al., 2023).
Gli autori sperimentano facendo sì che i modelli imparino dai dati che generano nel corso di diverse iterazioni. Lo applicano ai modelli di miscela gaussiana (GMM), agli autocodificatori variazionali (VAE) e ai modelli Large Language (LLM). Per i tre tipi di modelli, ciò porta a un fenomeno che chiamano “collasso del modello“:
un processo degenerativo per cui, nel tempo, i modelli dimenticano la vera distribuzione dei dati sottostanti, anche in assenza di uno spostamento nella distribuzione nel tempo.
Crollo del modello caratterizza il comportamento dei modelli che dimenticano le code delle distribuzioni reali (cioè gli eventi improbabili, meno frequenti e tuttavia importanti) e sovrarappresentano il centro della distribuzione. Man mano che il processo si ripete, i modelli convergono verso…
Fonte: towardsdatascience.com