Gemma Scope: aiutare la comunità della sicurezza a far luce sul funzionamento interno dei modelli linguistici

 | Intelligenza-Artificiale

Tecnologie

Pubblicato
Autori

Team di interpretazione del modello linguistico

Annuncio di una suite completa e aperta di autoencoder sparsi per l'interpretabilità del modello linguistico.

Per creare un modello linguistico di intelligenza artificiale (IA), i ricercatori costruiscono un sistema che impara da grandi quantità di dati senza guida umana. Di conseguenza, il funzionamento interno dei modelli linguistici è spesso un mistero, persino per i ricercatori che li addestrano. Interpretabilità meccanicistica è un campo di ricerca focalizzato sulla decifrazione di questi meccanismi interni. I ricercatori in questo campo utilizzano autoencoder sparsi come una sorta di “microscopio” che consente loro di vedere all'interno di un modello linguistico e di comprenderne meglio il funzionamento.

Oggi, stiamo annunciando Gemma Scopeun nuovo set di strumenti per aiutare i ricercatori a comprendere il funzionamento interno di Gemma 2, la nostra famiglia leggera di modelli aperti. Gemma Scope è una raccolta di centinaia di autoencoder sparsi (SAE) aperti e disponibili gratuitamente per Gemma 2 9B E Gemma 2 2BStiamo anche rendendo open source Mischiauno strumento da noi creato che ha reso possibile gran parte del lavoro di interpretabilità alla base di Gemma Scope.

Ci auguriamo che la release odierna consenta una ricerca più ambiziosa sull'interpretabilità. Ulteriori ricerche hanno il potenziale per aiutare il settore a costruire sistemi più robusti, sviluppare migliori misure di sicurezza contro le allucinazioni dei modelli e proteggere dai rischi degli agenti AI autonomi come l'inganno o la manipolazione.

Prova la nostra demo interattiva Gemma Scopeper gentile concessione di Neuronpedia.

Interpretare ciò che accade all'interno di un modello linguistico

Quando poni una domanda a un modello linguistico, questo trasforma il tuo input di testo in una serie di “attivazioni”. Queste attivazioni mappano le relazioni tra le parole che hai inserito, aiutando il modello a creare connessioni tra parole diverse, che usa per scrivere una risposta.

Mentre il modello elabora l'input di testo, le attivazioni a diversi livelli nella rete neurale del modello rappresentano molteplici concetti sempre più avanzati, noti come “caratteristiche”.

Ad esempio, i primi strati di un modello potrebbero imparare a ricordare i fatti come quello Michael Jordan gioca a basketmentre gli strati successivi possono riconoscere concetti più complessi come la fattualità del testo.

Una rappresentazione stilizzata dell'uso di un autoencoder sparso per interpretare le attivazioni di un modello, in quanto richiama il fatto che la Città della Luce è Parigi. Vediamo che i concetti correlati al francese sono presenti, mentre quelli non correlati non lo sono.

Tuttavia, i ricercatori dell'interpretabilità affrontano un problema chiave: le attivazioni del modello sono una miscela di molte caratteristiche diverse. Nei primi giorni dell'interpretabilità meccanicistica, i ricercatori speravano che le caratteristiche nelle attivazioni di una rete neurale si allineassero con i singoli neuroni, cioè, nodi di informazione. Ma sfortunatamente, in pratica, i neuroni sono attivi per molte caratteristiche non correlate. Ciò significa che non c'è un modo ovvio per dire quali caratteristiche fanno parte dell'attivazione.

È qui che entrano in gioco gli autoencoder sparsi.

Una data attivazione sarà solo una miscela di un piccolo numero di caratteristiche, anche se il modello linguistico è probabilmente in grado di rilevarne milioni o addirittura miliardi – cioèil modello utilizza le caratteristiche scarsamenteAd esempio, un modello linguistico prenderà in considerazione la relatività quando risponde a una domanda su Einstein e prenderà in considerazione le uova quando scriverà di frittate, ma probabilmente non prenderà in considerazione la relatività quando scriverà di frittate.

Gli autoencoder sparsi sfruttano questo fatto per scoprire un set di possibili caratteristiche e suddividere ogni attivazione in un piccolo numero di esse. I ricercatori sperano che il modo migliore per l'autoencoder sparsi di svolgere questo compito sia trovare le effettive caratteristiche sottostanti che il modello linguistico utilizza.

È importante notare che in nessun momento di questo processo noi, i ricercatori, diciamo all'autoencoder sparso quali caratteristiche cercare. Di conseguenza, siamo in grado di scoprire strutture ricche che non avevamo previsto. Tuttavia, poiché non conosciamo immediatamente le Senso delle caratteristiche scoperte, cerchiamo modelli significativi negli esempi di testo in cui l'autoencoder sparso dice che la funzionalità “si attiva”.

Ecco un esempio in cui i token in cui si attiva la funzionalità sono evidenziati in gradienti di blu in base alla loro intensità:

Esempi di attivazioni per una caratteristica trovata dai nostri autoencoder sparsi. Ogni bolla è un token (parola o frammento di parola) e il colore blu variabile illustra quanto fortemente è presente la caratteristica. In questo caso, la caratteristica è apparentemente correlata agli idiomi.

Cosa rende Gemma Scope unica

La ricerca precedente con autoencoder sparsi si è concentrata principalmente sull'indagine del funzionamento interno di modelli minuscoli O un singolo strato nei modelli più grandiMa una ricerca sull'interpretabilità più ambiziosa implica la decodifica di algoritmi complessi e stratificati in modelli più ampi.

Abbiamo addestrato autoencoder sparsi a ogni output di livello e sottolivello di Gemma 2 2B E 9B per costruire Gemma Scope, producendo più di 400 autoencoder sparsi con più di 30 milioni di feature apprese in totale (anche se molte feature probabilmente si sovrappongono). Questo strumento consentirà ai ricercatori di studiare come le feature si evolvono nel modello e interagiscono e si compongono per creare feature più complesse.

Gemma Scope è anche addestrata con il nostro nuovo, all'avanguardia Architettura JumpReLU SAE. L'architettura originale sparse autoencoder ha faticato a bilanciare i due obiettivi di rilevare quali caratteristiche sono presenti e stimarne la forza. L'architettura JumpReLU semplifica il raggiungimento di questo equilibrio in modo appropriato, riducendo significativamente l'errore.

L'addestramento di così tanti autoencoder sparsi è stata una sfida ingegneristica significativa, che ha richiesto molta potenza di calcolo. Abbiamo utilizzato circa il 15% del calcolo di addestramento di Gemma 2 9B (escluso il calcolo per la generazione di etichette di distillazione), risparmiato circa 20 Pebibyte (PiB) di attivazioni su disco (circa quanto un milione di copie di Wikipedia in inglese) e ha prodotto centinaia di miliardi di parametri autoencoder sparsi in totale.

Spingendo il campo in avanti

Con il rilascio di Gemma Scope, speriamo di rendere Gemma 2 la migliore famiglia di modelli per la ricerca sull'interpretabilità meccanicistica aperta e di accelerare il lavoro della comunità in questo campo.

Finora, la comunità dell'interpretabilità ha fatto grandi progressi nella comprensione di piccoli modelli con autoencoder sparsi e nello sviluppo di tecniche rilevanti, come causale interventi, automatico circuito analisi, interpretazione delle caratteristicheE valutare autoencoder sparsiCon Gemma Scope, speriamo di vedere la comunità adattare queste tecniche a modelli moderni, analizzare capacità più complesse come la catena di pensiero e trovare applicazioni reali dell'interpretabilità, come affrontare problemi come allucinazioni e jailbreak che si presentano solo con modelli più grandi.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *