Dalla modellazione di immagini mascherate alla modellazione di immagini autoregressive | di Mengliu Zhao | Giugno 2024 | Intelligenza-Artificiale

Pre-formazione in Image Domain

Quando ci si sposta nel dominio dell’immagine, la domanda immediata è come formiamo la “sequenza di token” dell’immagine. Il pensiero naturale è semplicemente quello di utilizzare l'architettura ViT, suddividendo un'immagine in una griglia di patch di immagini (token visivi).

ESSERE. Pubblicato come preprint di arXiv nel 2022, l’idea di BEiT è semplice. Dopo aver tokenizzato un'immagine in una sequenza di token visivi 14*14, il 40% dei token viene mascherato in modo casuale, sostituito da incorporamenti apprendibili e immesso nel trasformatore. L'obiettivo pre-addestramento è massimizzare la probabilità di log dei token visivi corretti e per questa fase non è necessario alcun decodificatore. La pipeline è mostrata nella figura seguente.

BEiT pipeline di pre-formazione. Fonte immagine: https://arxiv.org/abs/2106.08254

Nell'articolo originale, gli autori hanno anche fornito un collegamento teorico tra BEiT e Variational Autoencoder. Quindi la domanda naturale è: è possibile utilizzare un Autoencoder per scopi di pre-allenamento?

MAE-ViT. Questo articolo ha risposto alla domanda precedente progettando un'architettura di codifica automatica mascherata. Utilizzando la stessa formulazione ViT e il mascheramento casuale, gli autori hanno proposto di “scartare” le patch mascherate durante l'addestramento e di utilizzare solo patch non mascherate nella sequenza del token visivo come input per il codificatore. I token maschera verranno utilizzati per la ricostruzione durante la fase di decodifica nel pre-allenamento. Il decodificatore potrebbe essere flessibile, spaziando da 1 a 12 blocchi di trasformatori con dimensionalità compresa tra 128 e 1024. Informazioni architettoniche più dettagliate possono essere trovate nel documento originale.

Architettura del codificatore automatico mascherato. Fonte immagine: https://arxiv.org/abs/2111.06377

SimMIM. Leggermente diverso da BEiT e MAE-ViT, il documento propone l'utilizzo di una dorsale flessibile come Swin Transformer per scopi di codifica. La testa di previsione proposta è estremamente leggera: un singolo strato lineare di un MLP a 2 strati per regredire i pixel mascherati.