In questo articolo utilizzeremo un Q-Former, una tecnica per collegare la visione artificiale e i modelli del linguaggio naturale, per creare un sistema di risposta visiva alle domande. Esamineremo la teoria necessaria, seguendo il Carta BLIP-2quindi implementare un sistema che possa essere utilizzato per parlare di un’immagine con un modello linguistico di grandi dimensioni.
A chi è utile? Data scientist interessati alla visione artificiale, all’elaborazione del linguaggio naturale e alla modellazione multimodale.
Quanto è avanzato questo post? Intermedio. Potresti avere difficoltà se non hai esperienza sia nella visione artificiale che nell’elaborazione del linguaggio naturale.
Prerequisiti: Elevato livello di familiarità con trasformatori, embedding ed encoder-decoder. Tutti questi argomenti sono trattati nel seguente articolo:
La modellazione del linguaggio visivo è iniziata davvero nel 2016 con l’articolo VQA: risposta visiva alle domandeche formalmente poneva la seguente classe di problemi:
Data un’immagine e una domanda in linguaggio naturale sull’immagine, il compito è fornire una risposta accurata in linguaggio naturale: VQA: risposta visiva alle domande
Nel 2016, quando la VQA è stata resa popolare, un approccio tipico era simile a questo:
Agli albori della VQA era opportuno addestrare da zero le componenti visive e linguistiche, passare gli output a una fitta rete e scegliere uno degli n possibili output come risposta.
Man mano che i modelli visivi e linguistici diventavano più potenti, il Visual Question Answering cedeva il passo Modellazione del linguaggio visivo (VLM)che può essere generalmente considerato come un’espansione della questione visiva…
Fonte: towardsdatascience.com