Gemma Ambito 2: Aiutare la comunità per la sicurezza dell’intelligenza artificiale ad approfondire la comprensione del comportamento del modello linguistico complesso

 | Intelligenza-Artificiale

Annuncio di una nuova suite aperta di strumenti per l’interpretabilità del modello linguistico

I Large Language Models (LLM) sono capaci di incredibili imprese di ragionamento, ma i loro processi decisionali interni rimangono in gran parte opachi. Se un sistema non si comporta come previsto, la mancanza di visibilità del suo funzionamento interno può rendere difficile individuare la ragione esatta del suo comportamento. L’anno scorso abbiamo fatto progressi nella scienza dell’interpretabilità Gemma ambitoun toolkit progettato per aiutare i ricercatori a comprendere il funzionamento interno di Gemma 2, la nostra raccolta leggera di modelli aperti.

Oggi rilasciamo Gemma Ambito 2: una suite completa e aperta di strumenti di interpretabilità per tutti Gemma 3 dimensioni del modello, dai parametri 270M a 27B. Questi strumenti possono permetterci di tracciare i potenziali rischi attraverso l’intero “cervello” del modello.

Per quanto ne sappiamo, questa è la più grande versione open source di strumenti di interpretabilità mai realizzata da un laboratorio di intelligenza artificiale fino ad oggi. La produzione di Gemma Scope 2 ha comportato la memorizzazione di circa 110 petabyte di dati e l’addestramento di oltre 1 trilione di parametri totali.

Mentre l’intelligenza artificiale continua ad avanzare, non vediamo l’ora che la comunità di ricerca sull’intelligenza artificiale utilizzi Gemma Scope 2 per eseguire il debug dei comportamenti dei modelli emergenti, utilizzare questi strumenti per controllare ed eseguire il debug migliore degli agenti di intelligenza artificiale e, infine, accelerare lo sviluppo di interventi di sicurezza pratici e robusti contro problemi come jailbreak, allucinazioni e servilismo.

Nostro Gemma Scope interattivo 2 la demo è disponibile per la prova, per gentile concessione di Neuronpedia.

Novità in Gemma Scope 2

La ricerca sull’interpretabilità mira a comprendere il funzionamento interno e gli algoritmi appresi dei modelli di intelligenza artificiale. Man mano che l’intelligenza artificiale diventa sempre più capace e complessa, l’interpretabilità è fondamentale per costruire un’intelligenza artificiale sicura e affidabile.

Come il suo predecessore, Gemma Scope 2 funge da microscopio per la famiglia di modelli linguistici Gemma. Combinando autocodificatori sparsi (SAE) e transcodificatori, consente ai ricercatori di guardare all’interno dei modelli, vedere a cosa stanno pensando e come questi pensieri si formano e si collegano al comportamento del modello. A sua volta, ciò consente uno studio più approfondito dei jailbreak o di altri comportamenti dell’IA rilevanti per la sicurezza, come le discrepanze tra il ragionamento comunicato di un modello e il suo stato interno.

Mentre l’originale Gemma Scope ha consentito la ricerca in aree chiave della sicurezza, come allucinazione modello, identificare i segreti conosciuti da un modelloE formare modelli più sicuriGemma Scope 2 supporta ricerche ancora più ambiziose attraverso aggiornamenti significativi:

  • Copertura completa su larga scala: Forniamo una suite completa di strumenti per l’intera famiglia Gemma 3 (fino a 27B parametri), essenziali per studiare comportamenti emergenti che appaiono solo su larga scala, come quelli precedentemente scoperto dal modello C2S Scale di dimensione 27b che ha contribuito a scoprire un nuovo potenziale percorso terapeutico contro il cancro. Sebbene Gemma Scope 2 non sia addestrato su questo modello, questo è un esempio del tipo di comportamento emergente che questi strumenti potrebbero essere in grado di comprendere.
  • Strumenti più raffinati per decifrare comportamenti interni complessi: Gemma Scope 2 include SAE e transcodificatori addestrati su ogni livello della nostra famiglia di modelli Gemma 3. Stranscodificatori kip E Transcodificatori a strati incrociati rendere più semplice la decifrazione dei calcoli a più passaggi e degli algoritmi sparsi in tutto il modello.
  • Tecniche di formazione avanzate: Utilizziamo tecniche all’avanguardia, in particolare il Tecnica di allenamento della matrioskache aiuta i SAE a rilevare concetti più utili e risolve alcuni difetti scoperti in Gemma Scope.
  • Strumenti di analisi del comportamento dei chatbot: Forniamo anche strumenti di interpretabilità mirati alle versioni di Gemma 3 ottimizzate per i casi d’uso della chat. Questi strumenti consentono l’analisi di comportamenti complessi a più fasi, come jailbreak, meccanismi di rifiuto e fedeltà alla catena di pensiero.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *