4.1 Configurazione sperimentale
La configurazione per entrambi i metodi è descritta di seguito:
Grafico R-CNN: L’uso della R-CNN più veloce con backbone VGG16 per garantire il rilevamento degli oggetti è implementato tramite PyTorch. Per l’implementazione RePN, viene utilizzata una struttura perceptron multistrato per analizzare il punteggio di correlazione utilizzando due funzioni di proiezione, ciascuna per la relazione soggetto e oggetto. Vengono utilizzati due livelli aGCN, uno a livello di funzionalità, il cui risultato viene inviato all’altro a livello semantico. L’addestramento avviene in due fasi: prima viene addestrato solo il rilevatore di oggetti, quindi l’intero modello viene addestrato congiuntamente.
MotivoNet: Le immagini che vengono immesse nel rilevatore del riquadro di delimitazione vengono realizzate in dimensioni 592×592, utilizzando il metodo di riempimento zero. Tutti gli strati LSTM sono sottoposti a collegamenti autostradali. Due e quattro livelli LSTM autostradali alternati vengono utilizzati rispettivamente per il contesto dell’oggetto e del bordo. L’ordinamento delle regioni del riquadro di delimitazione può essere eseguito in diversi modi utilizzando la coordinata x centrale, la previsione massima non di sfondo, la dimensione del riquadro di delimitazione o semplicemente il mescolamento casuale.
La sfida principale è analizzare il modello con un quadro di set di dati comune, poiché approcci diversi utilizzano preelaborazione, suddivisione e valutazione dei dati diverse. Tuttavia, gli approcci discussi, Graph R-CNN e MotifNet, utilizzano lo schema di elaborazione dei dati disponibile al pubblico e si separano da (7). Ci sono 150 classi di oggetti e 50 classi per le relazioni in questo set di dati di Visual Genome (4).
Visual Genome Dataset (4) in poche parole:
Immagini con annotazioni umane
Più di 100.000 immagini
150 classi di oggetti
50 classi di relazione
Ogni immagine ha circa 11,5 oggetti e 6,2 relazioni nel grafico della scena
4.2 Risultati sperimentali
Confronto quantitativo: Entrambi i metodi hanno valutato il proprio modello utilizzando la metrica di richiamo. La tabella 1 mostra il confronto di entrambi i metodi tramite diversi indicatori quantitativi. (1) Classificazione dei predicati (PredCls) denota la capacità di riconoscere la relazione tra oggetti, (2) Classificazione delle frasi (PhrCls) o classificazione del grafico della scena in (9) descrive la capacità di osservare le categorie sia degli oggetti che delle relazioni, (3) La Scene Graph Generation (SGGen) o il rilevamento del grafico della scena in (9) rappresenta la prestazione necessaria per combinare gli oggetti con le relazioni rilevate tra di loro. In (8), migliorano quest’ultima metrica con un SGGen completo (SGGen+) che include la possibilità di avere un determinato scenario come il rilevamento di un Uomo COME ragazzotecnicamente si tratta di un rilevamento fallito, ma qualitativamente se tutte le relazioni con questo oggetto vengono rilevate con successo, allora dovrebbe essere considerato un risultato positivo, aumentando quindi il valore della metrica SGGen.
Secondo la tabella 1, MotifNet (9) ha prestazioni comparativamente migliori quando si analizzano separatamente oggetti, bordi ed etichette di relazione. Tuttavia, la generazione dell’intero grafico di una determinata immagine è più accurata utilizzando il secondo approccio, Graph R-CNN (8). Mostra anche che avere la metrica di output completa mostra una migliore analisi del modello grafico della scena.
Confronto qualitativo: Nella struttura dei motivi neurali (9), considerano separatamente i risultati qualitativi. Ad esempio, il rilevamento del bordo della relazione logorante COME indossa rientra nella categoria del rilevamento non riuscito. Mostra che il modello (9) funziona meglio di quanto mostrato dal numero della metrica di output. D’altra parte, (8) include questa comprensione del risultato nella loro metrica SGGen (SGGen+) completa che prende già in considerazione possibili rilevamenti non così falliti.
Fonte: towardsdatascience.com