Imparare a disimparare le macchine.  Un approccio alla macchina basato sui dati… |  di Evgeniya Sukhodolskaya |  Novembre 2023

 | Intelligenza-Artificiale

Un approccio basato sui dati per il disapprendimento automatico dei modelli linguistici generativi

Immagine generata con DAL 3

Nel panorama tecnologico odierno, sarebbe difficile trovare qualcuno che non abbia sentito parlare di machine learning. Negli ultimi dieci anni il campo della ricerca è stato così di moda che anche chi è esterno al settore ha ormai familiarità con termini come Intelligenza Artificiale (AI), Reti Neurali (NN) e Machine Learning (ML).

Tuttavia, quando si tratta di disimparare la macchinasembra che il settore legale ne abbia sentito parlare più della comunità tecnologica. Il recente boom dei Large Language Models (LLM), che nel frenetico mondo dell’IT sembra un decennio anche se sono passati solo 1-2 anni, ha portato alla luce centinaia di questioni etiche e legali irrisolte relative allo sviluppo dell’intelligenza artificiale. Romanzieri stanno facendo causa OpenAI per aver utilizzato i loro testi per addestrare modelli GPT senza consenso. Twitter lo è in fermento con commenti critici da parte di artisti che credono che le loro opere siano state utilizzate in violazione delle leggi sul copyright. Rispettare il “diritto all’oblio” è diventato estremamente impegnativo.

Molto simile Allineamento dell’IAil machine unlearning sembra essere un campo trascurato, date le limitate soluzioni open source disponibili. Credo che l’esplorazione del disapprendimento automatico dovrebbe essere incoraggiata e resa popolare, soprattutto considerando che le leggi attuali e le norme etiche sull’uso dell’intelligenza artificiale sono sottosviluppate e mancano gravemente di meccanismi per la protezione dei dati. In questo articolo vorrei suggerire alcuni miglioramenti pratici una delle prime tecniche di disapprendimento applicate per modelli linguistici generativi.

Disapprendimento della macchina

Il termine “machine unlearning” o “machine oblio” significa esattamente quello che sembra: include tecniche progettate per cancellare le informazioni richieste dalla “memoria della conoscenza” di un modello di machine learning. Tuttavia, è tutt’altro che intuitivo quando è necessario considerare i metodi reali per raggiungere questo obiettivo in modo efficiente in termini di tempo, risorse computazionali e prestazioni del modello sui dati “non imparati”. Una soluzione ovvia è quella di riqualificare i modelli da zero utilizzando il set di dati iniziale escludendo il “set dimenticato”, ma questo sarebbe un approccio estremamente poco pratico per il disimparamento della rete neurale profonda.

“Framework per il machine unlearning” da “Indagine sull’apprendimento automatico

I principali risultati della ricerca nel campo del machine unlearning sono raccolti in modo conciso in “Un’indagine sul disapprendimento automatico”. Un altro articolo che tratta le nozioni di base con spiegazioni accessibili è “Disimparare le macchine: il dovere di dimenticare”. Anche se personalmente raccomando queste risorse, puoi trovare una moltitudine di altri materiali di ricerca di qualità sull’argomento. Tuttavia, in termini di applicazioni pratiche, c’è ancora molto da fare.

Un’iniziativa promettente che potrebbe spostare questo campo dall’esplorazione teorica all’applicazione pratica è la NeurIPS 2023 Sfida del machine unlearning. Qui, i partecipanti competono per creare un algoritmo di disapprendimento per la rete neurale convoluzionale ResNet18.

Disapprendimento automatico di modelli linguistici generativi

Considerando la diffusa accessibilità e promozione di modelli linguistici generativi per la stragrande maggioranza degli utenti di Internet, esiste un bisogno fondamentale di meccanismi di disimparamento. Una delle prime tecniche di successo è stata pubblicata non molto tempo fa in formato open source; puoi trovare i dettagli in “Chi è Harry Potter? Disapprendimento approssimativo nei LLM” di Ronen Eldan e Mark Russinovich.

Immagine generata con Diffusione stabile

Gli autori utilizzano un approccio di aumento dei dati per l’unlearning automatico su Modello di chat Lama 2 7b pubblicato quest’estate da Meta. Il bersaglio prescelto per il disapprendimento, noto anche come “set da dimenticare”, è la saga di Harry Potter (ingegnosi, questi babbani!), che è un perfetto esempio di disapprendimento automatico a causa della possibile violazione della legge sul copyright. Mostrano che con solo un’ora di GPU di messa a punto, il modello risultante non è in grado di richiamare la maggior parte dei contenuti relativi a Harry Potter, mentre le sue prestazioni sui benchmark comuni rimangono quasi inalterate.

Panoramica dell’approccio

L’obiettivo principale dell’approccio è far sì che Llama 2 7b dimentichi il collegamento tra entità di un set di dimenticanza definito (Harry” “Hermione”) fornendo al modello alternative generiche plausibili (“Harry” “Sortita”). Per fornire queste alternative come etichette target in a set di dati di ottimizzazioneI termini peculiari del “dominio da dimenticare” dovrebbero essere fortemente penalizzati durante la generazione degli obiettivi. Tale penalizzazione potrebbe essere ottenuta combinando nell’equazione (1) i log generati da a modello rinforzato sull’input originale – libri di Harry Potter – e da a modello di base su a traduzione generica dell’input originale.

Equazione (1) da “Chi è Harry Potter? Disapprendimento approssimativo nei LLM

IL modello rinforzato è Llama 2 7b perfezionato ulteriormente sui romanzi di Harry Potter. IL modello di base è stonato Llama 2 7b. Per spostare il modello di baseNella distribuzione dell’output lontano dal tema di Harry Potter, gli autori sostituiscono i termini peculiari nell’input originale con quelli generici in modo che il modello generi una parola successiva basata su un contesto non correlato alla saga di Harry Potter. Per automatizzare tali sostituzioni, gli autori introducono un dizionario di termini di ancoraggio – termini specifici di “Harry Potter” – mappati traduzioni generiche. Il dizionario è completamente raccolto da GPT-4.

{‘Termini di ancoraggio’: ‘Traduzioni generiche’} da “Chi è Harry Potter? Disapprendimento approssimativo nei LLM

Il risultato set di dati di ottimizzazione è costituito da blocchi di testo tokenizzati tratti dai libri di Harry Potter in una mappatura uno a uno sulle etichette di destinazione, che sono token corrispondenti alle voci massime del v_generico dall’equazione (1).

Un pezzo del set di dati di perfezionamento da “Chi è Harry Potter? Disapprendimento approssimativo nei LLM

Per riassumere, gli autori descrivono quattro fasi del processo di disapprendimento:

Algoritmo di disapprendimento della macchina da “Chi è Harry Potter? Disapprendimento approssimativo nei LLM

Sfruttare l’approccio: sfide chiave

I risultati dell’approccio di aumento dei dati sono promettenti e incoraggiano ulteriori applicazioni in compiti simili. Tuttavia, gli autori hanno lasciato qualche margine di miglioramento in diverse fasi dell’applicazione.

Dipendenza dalle conoscenze esistenti di GPT-4: L’algoritmo dipende in una certa misura dalla precedente comprensione da parte di GPT-4 della serie di Harry Potter per generare traduzioni generiche. Anche se ci si aspetta che il modello abbia una conoscenza approfondita del regno di Harry Potter, una rivalutazione da parte dei fan della serie potrebbe fornire spunti preziosi.

Sfide con termini peculiari: Penalizzare tutti i termini univoci relativi alla serie pone un problema. Ad esempio, sostituire ogni istanza di “Harry” con un nome comune come “John” sconvolge la comprensione del linguaggio naturale da parte del modello, portando a frasi come “Harry si avvicinò a lui e disse: ‘Ciao, mi chiamo John‘.” Per affrontare questo problema, gli autori utilizzano la seguente strategia:

  • Escludere istanze ripetute di termini ancorati dal contribuire alla funzione di perdita oltre la loro occorrenza iniziale.
  • Diminuire la probabilità di logit connessi a traduzioni di termini apparsi in precedenza.

Tuttavia, questa strategia influisce anche sulla comprensione linguistica generale del modello. Un’alternativa plausibile utile per la messa a punto del set di dati sarebbe, ad esempio, “Harry si avvicinò a lui e gli disse: ‘Ciao, mi chiamo Harold‘.”

Tecniche di valutazione: Il team ha utilizzato GPT-4 per una valutazione iniziale, comprendente 300 completamenti immediati di Harry Potter, e un’ulteriore analisi dei completamenti. Tuttavia, ne hanno riconosciuto i limiti in termini di accuratezza, optando per ispezioni manuali dei risultati per una verifica più approfondita nella formazione finale. Gli autori non hanno fornito approfondimenti su come impostare tale ispezione manuale.

Superare le sfide

Un modo più efficace per affrontare le sfide principali sarebbe un approccio ibrido che combini l’intuizione umana e i Large Language Models (LLM).

Al fine di sfruttare i punti di forza collettivi dell’intuizione umana e dei grandi modelli linguistici, ho progettato tre interfacce di progetti di crowdsourcing che facilitano l’etichettatura collaborativa utilizzando LLM e la folla. Ogni interfaccia progettata per l’etichettatura umana è adattata a una delle sfide sopra elencate.

Dipendenza dalle conoscenze esistenti di GPT-4:

Immagine dell’autore

Usa il Riconoscimento di entità denominate (NER) per correggere le scelte NER GPT-4 per un dizionario di termini di ancoraggio. Come input, fornisci il testo e la selezione dei termini di GPT-4 (puoi chiedere al modello di restituire direttamente le posizioni nel testo) e istruisci il pubblico a correggere e integrare le entità selezionate.

Sfide con termini idiosincratici:

Immagine dell’autore

Con l’aiuto di un modello di base, controlla le richieste di correttezza linguistica con i completamenti eseguiti dal modello di base su una traduzione generica dell’input originale. Tutti gli esempi in cui il modello di base non è sicuro di una risposta (la probabilità di token di output è inferiore a una certa soglia, scelta da te empiricamente) dovrebbero essere inviati a un progetto di crowdsourcing con l’interfaccia mostrata nell’immagine.

Tecniche di valutazione:

Immagine dell’autore

L’ispezione manuale della valutazione eseguita da GPT-4 può essere progettata come nell’immagine sopra.

Conclusione

Gli autori sottolineano che, a differenza del mondo immaginario di Harry Potter, le aree di saggistica potrebbero non avere la stessa abbondanza di termini univoci, il che potrebbe rendere non applicabile l’approccio di aumento dei dati basato su termini acore. Tuttavia, se le tecniche di aumento dei dati descritte in questo articolo si adattano al tuo progetto, valuta la possibilità di integrare i miglioramenti suggeriti e di introdurre ulteriori modifiche. Insieme possiamo far avanzare il campo del disimparamento automatico!

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *