Collegare il linguaggio alla visione è un problema fondamentale per molti sistemi di intelligenza artificiale del mondo reale, come il recupero di immagini o la generazione di descrizioni per i non vedenti. Il successo in questi compiti richiede che i modelli mettano in relazione diversi aspetti del linguaggio come oggetti e verbi con le immagini. Ad esempio, per distinguere tra le due immagini nella colonna centrale sottostante, i modelli devono distinguere tra i verbi “catturare” e “calciare”. La comprensione dei verbi è particolarmente difficile poiché richiede non solo il riconoscimento degli oggetti, ma anche il modo in cui i diversi oggetti in un’immagine si relazionano tra loro. Per superare questa difficoltà, introduciamo il set di dati SVO-Probes e lo utilizziamo per sondare modelli linguistici e visivi per la comprensione dei verbi.

In particolare, consideriamo modelli di trasformatore multimodale (ad esempio, Lu et al., 2019; Chen et al., 2020; Tan e Bansal, 2019; Li et al., 2020), che hanno mostrato successo su una varietà di linguaggi e visioni compiti. Tuttavia, nonostante le ottime prestazioni rispetto ai benchmark, non è chiaro se questi modelli abbiano una comprensione multimodale a grana fine. In particolare, il lavoro precedente mostra che i modelli linguistici e visivi possono riuscire a raggiungere parametri di riferimento senza una comprensione multimodale: ad esempio, rispondere a domande sulle immagini basate solo su precedenti linguistici (Agrawal et al., 2018) o oggetti “allucinanti” che non sono nell’immagine durante la didascalia delle immagini (Rohrbach et al., 2018). Per anticipare le limitazioni del modello, lavorare come Shekhar et al. proporre valutazioni specializzate per sondare sistematicamente modelli per la comprensione del linguaggio. Tuttavia, i set di sonde precedenti sono limitati nel numero di oggetti e verbi. Abbiamo sviluppato SVO-Probes per valutare meglio le potenziali limitazioni nella comprensione dei verbi nei modelli attuali.

SVO-Probes comprende 48.000 coppie di frasi immagine e verifica la comprensione di oltre 400 verbi. Ogni frase può essere suddivisa in a tripletta (o tripletta SVO) e abbinata a immagini di esempio positive e negative. Gli esempi negativi differiscono solo in un modo: il soggetto, il verbo o l’oggetto vengono cambiati. La figura sopra mostra esempi negativi in ​​cui il soggetto (a sinistra), il verbo (al centro) o l’oggetto (a destra) non corrispondono all’immagine. Questa formulazione del compito consente di isolare con quali parti della frase un modello ha maggiori problemi. Inoltre, rende SVO-Probes più impegnativo rispetto alle attività standard di recupero di immagini, in cui gli esempi negativi sono spesso completamente estranei alla frase della query.

Per creare le sonde SVO, noi eseguire una ricerca di immagini con triplette SVO da un set di dati di addestramento comune, Conceptual Captions (Sharma et al. 2018). Poiché la ricerca delle immagini può essere rumorosa, una fase di annotazione preliminare filtra le immagini recuperate per garantire di avere un set pulito di coppie immagine-SVO. Poiché i trasformatori vengono addestrati su coppie immagine-frase, non su coppie immagine-SVO, abbiamo bisogno di coppie immagine-frase per sondare il nostro modello. Per raccogliere frasi che descrivono ciascuna immagine, gli annotatori scrivono una breve frase per ciascuna immagine che include la tripletta SVO. Ad esempio, data la tripletta SVO , un annotatore potrebbe scrivere la frase “Un animale giace nell’erba”. Utilizziamo quindi le annotazioni SVO per accoppiare ogni frase con un’immagine negativa e chiediamo agli annotatori di verificare i negativi in ​​una fase finale di annotazione. Per i dettagli, vedere la figura seguente.

Esaminiamo se i trasformatori multimodali possono classificare accuratamente gli esempi come positivi o negativi. Il grafico a barre qui sotto illustra i nostri risultati. Il nostro set di dati è impegnativo: il nostro modello di trasformatore multimodale standard raggiunge una precisione complessiva del 64,3% (la probabilità è del 50%). Mentre la precisione è rispettivamente del 67,0% e del 73,4% su soggetti e oggetti, la prestazione scende al 60,8% sui verbi. Questo risultato mostra che il riconoscimento dei verbi è davvero impegnativo per i modelli visivi e linguistici.

Esploriamo anche quali architetture di modelli funzionano meglio sul nostro set di dati. Sorprendentemente, i modelli con modellazione dell’immagine più debole hanno prestazioni migliori rispetto al modello con trasformatore standard. Un’ipotesi è che il nostro modello standard (con una maggiore capacità di modellazione delle immagini) si adatti eccessivamente al convoglio. Poiché entrambi questi modelli hanno prestazioni peggiori in altri compiti linguistici e visivi, il nostro compito di indagine mirato mette in luce i punti deboli del modello che non sono osservati su altri parametri di riferimento.

Nel complesso, scopriamo che, nonostante le prestazioni impressionanti nei benchmark, i trasformatori multimodali hanno ancora difficoltà con la comprensione a grana fine, in particolare con la comprensione dei verbi a grana fine. Ci auguriamo che SVO-Probes possa aiutare a guidare l’esplorazione della comprensione dei verbi nei modelli linguistici e visivi e ispirare set di dati di sondaggi più mirati.

Visita le nostre sonde SVO segno di riferimento E Modelli su GitHub: benchmark e modelli.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *