Quando gli LLM ci forniscono risultati che rivelano difetti nella società umana, possiamo scegliere di ascoltare ciò che ci dicono?

fotografato da Vincenzo Fleming SU Unsplash

Ormai sono sicuro che molti di voi avranno sentito la notizia Il nuovo LLM* di Google, Gemini, che genera immagini di persone razzialmente diverse in uniformi naziste. Questa piccola notizia mi ha ricordato qualcosa di cui volevo parlare, ovvero quando i modelli hanno punti ciechi, quindi applichiamo regole esperte alle previsioni che generano per evitare di restituire qualcosa di estremamente stravagante all'utente.

Questo genere di cose non è così raro nell'apprendimento automatico, secondo la mia esperienza, soprattutto quando si dispone di dati di addestramento imperfetti o limitati. Un buon esempio di ciò che ricordo dal mio lavoro è stato prevedere quando un pacco sarebbe stato consegnato a un ufficio commerciale. Matematicamente, il nostro modello sarebbe molto efficace nel stimare esattamente quando il pacco si avvicinerebbe fisicamente all'ufficio, ma a volte i camionisti arrivano a destinazione a tarda notte e poi riposano nel loro camion o in un hotel fino al mattino. Perché? Perché nessuno è in ufficio per ricevere/firmare il pacco al di fuori dell'orario lavorativo.

Insegnare a un modello l'idea di “orario lavorativo” può essere molto difficile e la soluzione molto più semplice era semplicemente dire: “Se il modello dice che la consegna arriverà al di fuori dell'orario lavorativo, aggiungi tempo sufficiente alla previsione che cambierà”. fino all'ora successiva l'ufficio risulta aperto”. Semplice! Risolve il problema e riflette le circostanze reali sul terreno. Stiamo semplicemente dando una piccola spinta al modello per aiutarne i risultati a funzionare meglio.

Tuttavia, ciò causa alcuni problemi. Per prima cosa, ora abbiamo due diverse previsioni di modello da gestire. Non possiamo semplicemente buttare via la previsione del modello originale, perché è ciò che utilizziamo per il monitoraggio e la metrica delle prestazioni del modello. Non è possibile valutare un modello sulle previsioni dopo che gli esseri umani hanno messo le loro zampe lì dentro, non è matematicamente valido. Ma per avere un'idea chiara dell'impatto del modello nel mondo reale, vuoi guardare la previsione post-regola, perché è ciò che il cliente ha effettivamente sperimentato/visto nella tua applicazione. In ML, siamo abituati a un'inquadratura molto semplice, in cui ogni volta che esegui un modello ottieni un risultato o una serie di risultati, e questo è tutto, ma quando inizi a modificare i risultati prima di lasciarli andare, allora devi pensare su una scala diversa.

Ho il sospetto che questa sia una forma di ciò che sta succedendo con LLM come Gemini. Tuttavia, invece di una regola post-previsione, sembra che il file smart money afferma che Gemini e altri modelli stanno applicando miglioramenti immediati “segreti” per cercare di modificare i risultati prodotti dai LLM.

In sostanza, senza questa spinta, il modello produrrà risultati che riflettono il contenuto su cui è stato addestrato. Vale a dire, il contenuto prodotto da persone reali. I nostri post sui social media, i nostri libri di storia, i nostri dipinti nei musei, le nostre canzoni popolari, i nostri film di Hollywood, ecc. Il modello assorbe tutta quella roba e ne apprende gli schemi sottostanti, indipendentemente dal fatto che siano cose di cui siamo orgogliosi o no. Un modello basato su tutti i media disponibili nella nostra società contemporanea otterrà molta esposizione al razzismo, al sessismo e a una miriade di altre forme di discriminazione e disuguaglianza, per non parlare della violenza, della guerra e di altri orrori. Mentre il modello apprende come appaiono le persone, come suonano, cosa dicono e come si muovono, sta imparando la versione migliore.

I nostri post sui social media, i nostri libri di storia, i nostri dipinti nei musei, le nostre canzoni popolari, i nostri film di Hollywood, ecc. Il modello assorbe tutta quella roba e ne apprende gli schemi sottostanti, indipendentemente dal fatto che siano cose di cui siamo orgogliosi o no.

Ciò significa che se chiedi al modello sottostante di mostrarti un medico, probabilmente sarà un ragazzo bianco in camice da laboratorio. Questo non è solo casuale, è perché nella nostra società moderna gli uomini bianchi hanno un accesso sproporzionato a professioni di alto status come essere medici, perché in media hanno accesso a un’istruzione maggiore e migliore, a risorse finanziarie, tutoraggio, privilegi sociali, e così via. Il modello ci riflette un'immagine che potrebbe metterci a disagio perché non ci piace pensare a quella realtà.

L’argomentazione ovvia è: “Bene, non vogliamo che il modello rafforzi i pregiudizi già presenti nella nostra società, vogliamo che migliori la rappresentanza delle popolazioni sottorappresentate”. Sono molto d’accordo con questo argomento, e lo sono preoccuparsi della rappresentazione nei nostri media. Tuttavia, c'è un problema.

È molto improbabile che l’applicazione di queste modifiche possa rappresentare una soluzione sostenibile. Ricorda la storia con cui ho iniziato sui Gemelli. È come giocare a whac-a-mole, perché il lavoro non si ferma mai: ora abbiamo persone di colore che vengono mostrate in uniformi naziste, e questo è comprensibilmente profondamente offensivo per molte persone. Quindi, forse da dove abbiamo iniziato applicando in modo casuale “come persona di colore” o “come persona indigena” ai nostri suggerimenti, dobbiamo aggiungere qualcosa in più per escludere i casi in cui è inappropriato – ma come lo dici, in un modo che un LLM possa capire? Probabilmente dovremo tornare all’inizio, pensare a come funziona la soluzione originale e rivisitare l’intero approccio. Nel migliore dei casi, l'applicazione di una modifica come questa risolve un problema limitato con gli output, creandone potenzialmente altri.

Facciamo un altro esempio molto reale. Cosa succede se aggiungiamo al prompt: “Non usare mai un linguaggio esplicito o volgare nelle tue risposte, incluso (elenco delle parolacce qui)”. Forse funziona in molti casi e il modello si rifiuterà di dire parolacce quando un ragazzo di 13 anni chiede di essere divertente. Ma prima o poi ciò comporta ulteriori effetti collaterali inaspettati. E se qualcuno stesse cercando il storia del Sussex, Inghilterra? In alternativa, qualcuno verrà fuori con una parolaccia che hai lasciato fuori dall'elenco, quindi sarà un lavoro costante da mantenere. E le parolacce in altre lingue? Chi giudica ciò che va sulla lista? Mi viene il mal di testa solo a pensarci.

Questi sono solo due esempi e sono sicuro che puoi pensare a più scenari simili. È come mettere dei cerotti su un tubo che perde, e ogni volta che si rattoppa un punto si verifica un'altra perdita.

Allora, cosa vogliamo realmente dai LLM? Vogliamo che generino un’immagine speculare altamente realistica di come sono realmente gli esseri umani e di come appare effettivamente la nostra società umana dal punto di vista dei nostri media? Oppure vogliamo una versione igienizzata che pulisca i bordi?

Onestamente, penso che probabilmente abbiamo bisogno di qualcosa nel mezzo e dobbiamo continuare a rinegoziare i confini, anche se è difficile. Non vogliamo che i LLM riflettano i veri orrori e le fogne della violenza, dell'odio e altro ancora che la società umana contiene, che è una parte del nostro mondo che non dovrebbe essere amplificata nemmeno leggermente. La moderazione zero dei contenuti non è la risposta. Fortunatamente, questa motivazione è in linea con il desiderio delle grandi entità aziendali che utilizzano questi modelli di essere popolari tra il pubblico e guadagnare molti soldi.

…dobbiamo continuare a rinegoziare i confini, anche se è difficile. Non vogliamo che i LLM riflettano i veri orrori e le fogne della violenza, dell'odio e altro ancora che la società umana contiene, che è una parte del nostro mondo che non dovrebbe essere amplificata nemmeno leggermente. La moderazione zero dei contenuti non è la risposta.

Tuttavia, voglio continuare a sostenere con delicatezza il fatto che possiamo anche imparare qualcosa da questo dilemma nel mondo dei LLM. Invece di offenderci semplicemente e incolpare la tecnologia quando un modello genera una serie di immagini di un medico maschio bianco, dovremmo soffermarci a capire perché è quello che abbiamo ricevuto dal modello. E poi dovremmo discutere attentamente se la risposta del modello debba essere consentita, e prendere una decisione che sia fondata sui nostri valori e principi, e cercare di attuarla al meglio delle nostre capacità.

Come ho detto prima, un LLM non è un alieno proveniente da un altro universo, siamo noi. È addestrato sulle cose Noi ha scritto/detto/filmato/registrato/fatto. Se vogliamo che il nostro modello ci mostri medici di diversi sessi, generi, razze, ecc., dobbiamo creare una società che consenta a tutti questi diversi tipi di persone di avere accesso a quella professione e all’istruzione che richiede. Se ci preoccupiamo di come il modello ci rispecchia, ma non prendiamo a cuore il fatto che siamo noi a dover essere migliori, non solo il modello, allora non stiamo cogliendo il punto.

Se vogliamo che il nostro modello ci mostri medici di diversi sessi, generi, razze, ecc., dobbiamo creare una società che consenta a tutti questi diversi tipi di persone di avere accesso a quella professione e all’istruzione che richiede.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *