Modelli linguistici multimodali di grandi dimensioni e MM1 di Apple | di Matthew Gunton | Aprile 2024 | Intelligenza-Artificiale

Per Image Encoder, variavano tra modelli CLIP e AIM, dimensioni della risoluzione dell'immagine e set di dati su cui erano stati addestrati i modelli. Il grafico seguente mostra i risultati per ciascuna ablazione.

Esaminiamo i pezzi principali sopra e spieghiamo cosa sono.

CLIP sta per Contrastive Language Image Pre-training e ha lo scopo di aiutare il tuo modello ad apprendere concetti visivi fornendo nomi alle cose che devono essere viste come testo. Come mostra l'immagine seguente, questo accoppia le immagini con le codifiche del testo in modo che il modello alla fine collegherà i token di visione (rappresentati nell'immagine qui sotto come I, con i token di testo T). Questo metodo è chiamato allenamento contrastivo.

Figura 1 da “Apprendimento di modelli visivi trasferibili dalla supervisione del linguaggio naturale”.

SCOPO sta per Autoregressive Image Model ed è addestrato tramite un algoritmo di ottimizzazione della perdita ricostruttiva. L'obiettivo qui è vedere se il trasformatore può ricreare (ricostruire) l'immagine che gli viene data.

Figura 2 da “Pre-training scalabile di grandi modelli di immagini autoregressive”.

Risoluzione dell'immagine qui si riferisce al numero di pixel che vengono immessi nel trasformatore. Ad esempio, una risoluzione dell'immagine di 378 x 378 significa che passeremo una matrice di quella dimensione e quindi la convertiremo in incorporamenti su cui verrà quindi addestrato il modello. Dati di allenamento è stato suddiviso tra (DFN-2B), (DFN-5B), (DFN-5B + VeCap) e (ImageText-400M).

Gli autori hanno scoperto che la risoluzione dell'immagine era della massima importanza, seguita dalle dimensioni del modello e quindi dal contenuto dei dati di addestramento. Nello specifico, hanno visto che migliore era la risoluzione dell'immagine, migliori erano le prestazioni del modello sia per la richiesta di scatto zero che per quella di scatto ridotto. Poiché è necessaria una maggiore quantità di calcolo per addestrare ed eseguire modelli con requisiti di risoluzione delle immagini più elevati, ciò suggerisce che per Vision Transformers, il calcolo rimarrà di fondamentale importanza.

Per il connettore VL, hanno testato utilizzando 64 o 144 token per l'immagine, testato utilizzando 224, 336 e 378 per la risoluzione dell'immagine e hanno scelto tra alcune architetture. Esaminerò brevemente le architetture di seguito.

Raggruppamento medio è esattamente quello che sembra, prendendo la media di tutti i token e poi facendo una proiezione lineare di questa media in modo che la griglia fosse 8×8 o 12×12.

Raggruppamento dell'attenzione presuppone che i token immagine debbano essere trattati come campioni provenienti da un insieme di popolazione fondamentalmente diverso rispetto ai token di testo. Qui regoliamo il numero di token immessi per ciascuna immagine, nel documento denominato k query apprendibili. I ricercatori hanno considerato solo k di 64 o 144.

Mappatura convoluzionale è un metodo di Honeybee che utilizza ResNet per decidere dinamicamente quanti token passare all'LLM dall'immagine. Ciò è attualizzato nel modulo C-Abstractor.

Come puoi vedere da quanto sopra, le diverse architetture in realtà hanno avuto un impatto minimo. Come si potrebbe immaginare, le immagini a risoluzione più elevata e il numero maggiore di token passati hanno comportato un aumento delle prestazioni tra tutti i connettori, ma non in modo drammatico.

Questa scoperta suggerisce che non abbiamo trovato un modo significativamente migliore per collegare il codificatore di immagini al LLM, o che quest'area semplicemente non è quella in cui i grandi modelli si differenzieranno.

Qui, gli autori hanno giocato con 4 diversi tipi di dati: immagini con didascalie, immagini con didascalie sintetiche, dati di immagini-testo interfogliati e dati di solo testo. Hanno trovato 4 lezioni, ciascuna con un grafico per riassumere i cambiamenti delle prestazioni.

Primoi dati interlacciati aiutano con prestazioni con pochi scatti e solo testo, mentre i dati con sottotitoli aiutano con prestazioni con zero scatti. I ricercatori hanno variato la quantità di interlacciamento eseguita, con il grafico seguente che mostra i risultati. Come puoi vedere, i prompt con pochi scatti hanno funzionato notevolmente meglio sui modelli addestrati con dati interlacciati rispetto ai modelli addestrati con tutto o niente.

SecondoI dati di solo testo aiutano con il ragionamento in pochi colpi. Solo testo in questo contesto significa che i dati di addestramento includono esempi di immagini ed esempi di solo testo. Ciò è stato fatto per garantire che il modello comprenda il linguaggio umano oltre alle immagini. Il confronto tra solo didascalia e didascalia con testo mostra un netto miglioramento per tutti tranne il ragionamento 0-shot, tuttavia, solo interleaved ha prestazioni migliori rispetto a interleaved-plus-text per tutti tranne il test TextCore.

Terzose ottieni la giusta combinazione tra immagine e testo puoi ottenere prestazioni davvero elevate. Il grafico sopra mostra diversi rapporti tra dati interfogliati + didascalie e dati di solo testo. Poiché l'obiettivo è avere un modello multimodale, non hanno mai testato le prestazioni se non si dispone di dati di immagine. Gli autori qui sottolineano che il rapporto 91/9 ha prodotto i risultati più costantemente buoni.

Il quartoi dati sintetici aiutano con l'apprendimento in pochi colpi. VeCap sta per Visual-enriched Caption, che è un modo per creare didascalie in modo che descrivano sicuramente le parti visive chiave dell'immagine. Al contrario, immagina una didascalia che possa spiegare il significato dietro una foto ma non spieghi nessuno degli elementi nella foto. In genere lo faresti se il tuo data-scraper trovasse immagini con dati di testo alternativo scadenti.

Gli autori qui hanno concluso che VeCap dà una spinta “non banale” al ragionamento a pochi colpi, ma ha un aumento relativamente piccolo della qualità. Ciò solleva interrogativi sul rapporto costo-efficacia di VeCap.

Utilizzando i risultati delle loro ablazioni, gli autori hanno creato un trasformatore in due forme: miscela di esperti e regolare. Entrambi i modelli avevano un codificatore con un'immagine 378 x 378, pre-addestrato solo con il set di dati DFN-5B. Avevano un mix di 45% di dati con didascalie, 45% di dati interfogliati e 10% di dati di solo testo (approssimativamente il rapporto 91:9 tra dati immagine e testo). Il VL Connector aveva 144 token e hanno scelto un C Abstractor, anche se sottolineano che questa è stata una scelta alquanto arbitraria. Per lo stesso LLM, hanno creato un modello di parametri 3B, 7B e 30B (con il modello MoE che arriva solo fino a 7B). Il grafico seguente mostra come si sono comportati questi modelli.

È interessante notare che il modello di parametri 30B funziona alla pari con altri modelli che hanno miliardi di parametri in più rispetto a lui (LLaVA-NeXT-34B, ecc.), suggerendo che potrebbe esserci una relazione quantistica tra la dimensione dei parametri e le prestazioni qui.

Gli LLM multimodali sono una parte incredibilmente entusiasmante del campo. Man mano che troviamo modi migliori per trasmettere diversi tipi di dati in token, potremmo sbloccare applicazioni ancora più grandi per questi trasformatori. Guardando al futuro, non è irragionevole ora considerare come altri sensi potrebbero essere inseriti al di fuori di una descrizione testuale, come il suono, l’olfatto o persino il tatto. È probabile che la qualità dei dati diventi solo più preziosa.

Poiché gli autori hanno concluso che i diversi connettori linguistici non fanno una grande differenza, sarà interessante vedere se questo significa che la ricerca dovrebbe concentrarsi sul codificatore di immagini, o piuttosto se semplicemente non abbiamo trovato un modo davvero innovativo per utilizzare il connettore VL.

Al di fuori di questo documento specifico, una delle grandi domande che si pone è come funzioneranno questi MLLM al di fuori dei benchmark. Con la proliferazione dei LLM, una critica comune ruota attorno all'uso di benchmark per confrontarli. Spesso questi benchmark utilizzano un set di dati coerente da confrontare, consentendo a un modello di ottenere risultati migliori semplicemente adattandosi eccessivamente, anche se involontariamente. Utilizzando metodologie come ELO, l'algoritmo di valutazione degli scacchi, in LLM Arena di lmsys può fornire un confronto migliore e reale delle prestazioni del modello.

In conclusione, poiché più input possono essere collegati agli LLM, ci si può aspettare che il numero di applicazioni a cui possono essere applicati aumenterà. Solo il tempo dirà quanto utile possiamo rendere questa tecnologia.

Fonte: towardsdatascience.com