Risposte visive alle domande con modelli linguistici di grandi dimensioni congelati |  di Daniel Warfield |  Ottobre 2023

 | Intelligenza-Artificiale

Parlare con i LLM di immagini, senza formare i LLM sulle immagini.

“Modalità ponte”, realizzate con MidJourney. Tutte le immagini sono dell’autore se non diversamente specificato.

In questo articolo utilizzeremo un Q-Former, una tecnica per collegare la visione artificiale e i modelli del linguaggio naturale, per creare un sistema di risposta visiva alle domande. Esamineremo la teoria necessaria, seguendo il Carta BLIP-2quindi implementare un sistema che possa essere utilizzato per parlare di un’immagine con un modello linguistico di grandi dimensioni.

A chi è utile? Data scientist interessati alla visione artificiale, all’elaborazione del linguaggio naturale e alla modellazione multimodale.

Quanto è avanzato questo post? Intermedio. Potresti avere difficoltà se non hai esperienza sia nella visione artificiale che nell’elaborazione del linguaggio naturale.

Prerequisiti: Elevato livello di familiarità con trasformatori, embedding ed encoder-decoder. Tutti questi argomenti sono trattati nel seguente articolo:

La modellazione del linguaggio visivo è iniziata davvero nel 2016 con l’articolo VQA: risposta visiva alle domandeche formalmente poneva la seguente classe di problemi:

Data un’immagine e una domanda in linguaggio naturale sull’immagine, il compito è fornire una risposta accurata in linguaggio naturale: VQA: risposta visiva alle domande

Nel 2016, quando la VQA è stata resa popolare, un approccio tipico era simile a questo:

Un modello VQA del 2016 che utilizza un LSTM per incorporare la domanda in un vettore, una rete di visione artificiale esistente per incorporare l’immagine come vettore, quindi uno strato denso che considera i due nella scelta corretta dell’output. Da VQA: risposta visiva alle domande.

Agli albori della VQA era opportuno addestrare da zero le componenti visive e linguistiche, passare gli output a una fitta rete e scegliere uno degli n possibili output come risposta.

Man mano che i modelli visivi e linguistici diventavano più potenti, il Visual Question Answering cedeva il passo Modellazione del linguaggio visivo (VLM)che può essere generalmente considerato come un’espansione della questione visiva…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *