Quasi sicuramente lo sai già: gli LLM richiedono quantità straordinarie di dati di testo per l’addestramento. Spesso pensiamo a questo in termini di centinaia o migliaia di gigabyte di dati su un disco rigido, ma questo è un po’ astratto. Alcuni rapporti indicano che GPT-4 aveva nell’ordine di 1 trilione parole nei dati di addestramento. Ognuna di quelle parole è stata scritta da una persona, grazie alla propria capacità creativa. Per contestualizzare, il primo libro della serie Il Trono di Spade conteneva circa 292.727 parole. Quindi, i dati di addestramento per GPT-4 riguardavano 3.416.152 copie di quel libro lungo. E questo è solo un esempio della modellazione testuale: anche altri tipi di modelli, come quelli che generano o classificano contenuti multimediali, utilizzano volumi altrettanto massicci di questo tipo di dati.

Ci sono alcune cose da considerare quando si tratta di questi dati. Innanzitutto, tutti questi dati sono generati dalle persone e non appaiono sui nostri dischi rigidi per magia. Rispettare e riconoscere le persone che creano i nostri dati è importante anche per una questione etica, perché si sono impegnati e hanno creato valore di cui noi stiamo beneficiando. Ma ci sono anche ragioni più egoistiche per cui dovremmo sapere da dove provengono i nostri dati. Come data scientist abbiamo la responsabilità di sapere quale materiale stiamo fornendo ai nostri modelli come esempi e di comprenderlo in modo approfondito. Se ignoriamo la provenienza dei nostri dati, ci esponiamo a una spiacevole sorpresa per il modo in cui si comportano i nostri modelli di fronte al mondo reale. Ad esempio, la formazione dei LLM sui forum Internet o sui dati dei social media porta questi modelli al rischio di replicare il peggio di questi spazi, tra cui il razzismo, l’incitamento all’odio e altro ancora. In esempi un po’ meno estremi, lo sappiamo i modelli sono arricchiti dai dati di training che ottengono.

Se ignoriamo la provenienza dei nostri dati, ci esponiamo a una spiacevole sorpresa per il modo in cui si comportano i nostri modelli di fronte al mondo reale.

Per etichettare i dati è necessario l’aiuto umano. Ma cosa sono esattamente le etichette? Fondamentalmente, etichettare i dati significa usare il discernimento umano per assegnare valori o giudizi a ciò che scopriamo nei dati. Indipendentemente dal modo in cui i dati vengono raccolti o creati, molti dei casi d’uso del machine learning per tali dati richiedono un’etichettatura di qualche tipo.

Ciò può significare semplicemente decidere se un punto dati è buono o cattivo, determinare se le parole sono positive o negative, creare valori derivati, dividere i record in categorie, determinare quali tag applicare a un’immagine o a un video o infinite altre cose. Un esempio comune è identificare il testo presente in un’immagine o in altri contenuti multimediali per migliorare i modelli di riconoscimento dei caratteri. Se hai utilizzato captchaScommetto che ti suona familiare: hai svolto un lavoro di etichettatura dei dati.

Gli stessi LLM, in teoria, non richiedono etichettatura, perché deduciamo la qualità umana dei testi dal fatto che questi testi sono già stati generati da persone reali e quindi devono essere quanto più “simili alla produzione umana” possibile. forse essere, in sostanza. Fondamentalmente, poiché è stato scritto da un essere umano, è per definizione un esempio accettabile per il modello da provare, apprendere ed emulare. È qui che utilizziamo elementi come l’incorporamento semantico: il modello apprende come funzionano i modelli linguistici nel testo generato dall’uomo e li quantifica in rappresentazioni matematiche. Ma stiamo ancora scegliendo quale testo inserire nei processi del modello, come ho descritto prima, e abbiamo la responsabilità di comprendere e valutare quel testo.

L’apprendimento per rinforzo utilizza l’intervento umano per le attività relative alla messa a punto, il che significa che stiamo adattando leggermente il modo in cui il modello risponde ai suggerimenti, una volta che ha praticamente imparato a restituire una risposta coerente, che si tratti di testo, immagini, video o altre cose. Dopo alcuni elementi prevalentemente automatizzati di pre-addestramento o addestramento di base, molti modelli vengono messi a punto dagli esseri umani, determinando a volte in modo sottile se il modello sta facendo ciò che si desiderava. Questo è un compito molto difficile, perché le sfumature di ciò che realmente vogliamo dal modello possono essere davvero complicate. Fondamentalmente si tratta di copiare un LLM in modo pass-fail, su vasta scala.

Come ho discusso in precedenza, molti modelli moderni cercano di produrre il contenuto che sarà più gradito a un utente umano, qualcosa che sembrerà giusto e attraente per un essere umano. Quale modo migliore per addestrarlo allora, se non quello di chiedere agli esseri umani di guardare i risultati di una fase intermedia di formazione e decidere se i risultati si adattano a questa descrizione, e dirlo al modello in modo che possa fare scelte più appropriate? Non solo è il modo più efficace, ma potrebbe essere l’unico modo in cui può funzionare.

Fondamentalmente si tratta di copiare un LLM in modo pass-fail.

Ok, e allora? È sufficiente essere coscienziosi riguardo al fatto che le persone reali lavorano duramente per rendere possibili i nostri modelli? Dargli una pacca sulla spalla e dire grazie? No, non proprio, perché dobbiamo interrogarci su cosa significhi l’influenza umana per i risultati che generiamo. Come data scientist, dobbiamo essere curiosi riguardo all’interazione tra ciò che costruiamo e il resto del mondo in cui vive.

A causa di tutte queste aree di influenza, le scelte umane modellano le capacità e i giudizi del modello. Incorporiamo i pregiudizi umani nei modelli, perché gli esseri umani creano, controllano e giudicano tutto il materiale coinvolto. Decidiamo che questo frammento di testo verrà fornito al modello per l’addestramento, o che questa specifica risposta del modello è peggiore di un’altra, e il modello solidifica queste nostre scelte in rappresentazioni matematiche che può riutilizzare e replicare.

Questo elemento di pregiudizio è inevitabile, ma non è necessariamente negativo. Cercare di creare qualcosa di libero da ogni influenza umana suggerisce che l’influenza umana e gli esseri umani stessi sono problemi da evitare, il che a mio avviso non è una valutazione corretta. Allo stesso tempo, dovremmo essere realistici riguardo al fatto che i pregiudizi umani fanno parte dei nostri modelli e resistere alla tentazione di considerare i modelli come al di là delle nostre debolezze umane. Cose come il modo in cui assegniamo le etichette, ad esempio, ci portano a infondere significati nei dati consciamente o inconsciamente. Lasciamo tracce dei nostri processi mentali e delle nostre storie nei dati che creiamo, che si tratti di contenuti creativi originali, etichette di dati o giudizi sull’output del modello.

Cercare di creare qualcosa di libero da ogni influenza umana suggerisce che l’influenza umana e gli esseri umani stessi sono problemi da evitare, il che a mio avviso non è una valutazione corretta.

Inoltre, spesso nello spazio del machine learning lo sforzo umano è percepito come al servizio del lavoro “reale” invece che significativo di per sé. Le persone che producono lavori originali smettono di essere viste come individui unicamente creativi, ma vengono semplicemente trasformate in “generatori di contenuti” al servizio del modello. Perdiamo traccia dell’umanità e della vera ragione per cui questo contenuto esiste, che è servire e potenziare l’umanità. Come per il punto precedente, finiamo per svalutare le persone a favore dell’idolatria della tecnologia, il che ritengo sia sciocco. I modelli sono il prodotto delle persone ed esistono per servire le persone, non sono un fine indipendente a se stessi. Se costruisci un modello che non viene mai utilizzato e non viene mai eseguito, qual è il punto?

C’è un’altra questione interessante: il rischio di rimanere senza contenuti incontaminati generati dall’uomo come limite alla capacità del modello. Cioè, quando la nostra società inizia a utilizzare gli LLM per generare i nostri dati e Dall-E per generare le nostre immagini, e smettiamo di incentivare le persone reali a essere creative senza queste tecnologie, allora i trilioni di parole e le montagne di immagini che dobbiamo addestrare le nuove versioni di questi modelli verranno contaminate da contenuti generati artificialmente. Quel contenuto, ovviamente, deriva da contenuto umano, ma non è la stessa cosa. Non disponiamo ancora di metodi efficaci per differenziare i contenuti generati da persone senza modelli, quindi faremo fatica a sapere se i nostri dati di addestramento per i modelli futuri contengono questa contaminazione e in che misura.

Alcune persone sostengono che questo non sia in realtà un grosso problema, e che i modelli di formazione su almeno una parte di contenuto artificiale non costituiranno un problema, ma altri teorizzano che quando iniziamo a cannibalizzare i contenuti generati artificialmente in questo modo, i processi sottostanti di formazione verranno alterati esistenzialmente, sotto forma di qualcosa chiamato Model Collapse. Questo è in un certo senso un esempio del problema essenziale che il tuo modello influenza il mondo su cui fa affidamento, quindi il modello viene definitivamente modificato dal suo stesso comportamento. Questo non è vero solo per gli LLM, come sanno fin troppo bene i data scientist. Qualsiasi modello può risolversi da solo influenzando il comportamento delle persone, con conseguente deriva delle prestazioni a causa dello spostamento delle relazioni dei dati sottostanti.

Il tuo modello influenza il mondo su cui fa affidamento, quindi il modello viene modificato per definizione dal suo stesso comportamento.

Anche se non ci stiamo formando su dati realmente artificiali, ci sono molti studiosi che valutano se la nostra composizione umana e i processi creativi cambieranno a causa della nostra esposizione a contenuti creati artificialmente. Se leggi un sacco di testo generato da LLM, mentre scrivi e ricevi consigli da una modella o semplicemente su Internet in generale, cambierà sottilmente il modo in cui scrivi? È troppo presto per saperlo a livello comunitario, ma è una preoccupazione seria.

L’influenza umana è un fatto dell’apprendimento automatico: è una questione filosofica. Pensiamo all’apprendimento automatico come a una pura impresa scientifica, qualcosa che agisce su di noi, e questo è uno dei motivi per cui ad alcuni sembra terrificante. Ma in realtà, i sistemi che si stanno creando sono il prodotto dell’intervento umano e della creatività umana. La creazione e la cura dei dati rendono possibile tutto il resto dell’apprendimento automatico. In un certo senso, questo dovrebbe essere confortante per noi, perché abbiamo il controllo su ciò che facciamo con l’apprendimento automatico e su come lo facciamo. Il processo di apprendimento automatico prende le relazioni tra dati e li calcola in rappresentazioni matematiche, ma i dati sono prodotti da persone e sono sotto il nostro controllo. L’apprendimento automatico e l’intelligenza artificiale non sono una forza aliena e astratta: sono solo noi.

Vedi di più del mio lavoro su www.stephaniekirmer.com.

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *