Bias, tossicità e jailbreak di modelli linguistici di grandi dimensioni (LLM) | di Rachel Draelos, MD, PhD | Novembre 2023 | Intelligenza-Artificiale

Una revisione delle recenti ricerche sulle caratteristiche relative agli LLM

L’immagine in primo piano è derivata da Video della scatola di Galton da Wikimedia Commons (Licenza Creative Commons Attribuzione-Condividi allo stesso modo 4.0 Internazionale).

AVVISO SUL CONTENUTO: questo post contiene esempi di testo parziale e tossico generato da LLM.

Questo post fornisce un approfondimento sulle recenti ricerche su bias, tossicità e jailbreak di modelli linguistici di grandi dimensioni (LLM), in particolare ChatGPT e GPT-4. Discuterò delle linee guida etiche che le aziende stanno attualmente utilizzando nello sviluppo LLM e degli approcci che utilizzano per cercare di salvaguardarsi dalla generazione di contenuti indesiderati. Poi esaminerò recenti documenti di ricerca che studiano la generazione di contenuti tossici, il jailbreak e i pregiudizi da più angolazioni: genere, razza, medicina, politica, posto di lavoro e narrativa.

Il pregiudizio si riferisce al pregiudizio a favore o contro un gruppo, una persona o una cosa specifica, mentre la tossicità si riferisce a contenuti irrispettosi, volgari, maleducati o che promuovono danni. Gli LLM sono parziali e hanno la capacità di generare contenuti tossici perché sono addestrati su grandi quantità di dati Internet, che sfortunatamente rappresentano sia i lati positivi che quelli negativi dell’umanità, compresi tutti i nostri pregiudizi e la nostra tossicità. Per fortuna, gli sviluppatori di LLM come OpenAI e Google hanno adottato misure per ridurre le possibilità che i LLM producano contenuti apertamente distorti o tossici. Tuttavia, come vedremo, ciò non significa che i modelli siano perfetti: infatti, gli LLM amplificano i pregiudizi esistenti e mantengono la capacità di generare contenuti tossici nonostante le misure di salvaguardia.

Il processo di “jailbreaking” si riferisce al dare a un LLM suggerimenti particolarmente stimolanti o provocatori al fine di sfruttare i pregiudizi esistenti del modello e la capacità esistente di generazione di contenuti tossici, al fine di ottenere risultati LLM che violano le politiche sui contenuti aziendali. I ricercatori che studiano il jailbreak lo fanno per allertare le aziende sulle vulnerabilità LLM, in modo che le aziende possano rafforzare le protezioni che hanno messo in atto e rendere meno probabile che i modelli vengano sottoposti a jailbreak in futuro. La ricerca sul jailbreak è simile a hacking eticoin cui gli hacker scoprono i punti deboli del sistema per ripararli, con conseguente miglioramento della sicurezza del sistema.

Chiunque sia interessato agli LLM da un punto di vista personale o professionale può trarre vantaggio dalla lettura di questo articolo, compresi gli appassionati di intelligenza artificiale che hanno…

Fonte: towardsdatascience.com