Apprendimento della rappresentazione video di lunga durata (Parte 3: Apprendimento della rappresentazione video egocentrica di lunga durata) |  di Subarna Tripathi |  Maggio 2024

 | Intelligenza-Artificiale

Esploriamo nuovi metodi di apprendimento della rappresentazione video dotati di capacità di ragionamento di lunga durata. Questa è la Parte III che fornisce un'anteprima delle nostre ultime e più grandi esplorazioni per l'apprendimento della rappresentazione video egocentrica “a lungo termine”. Vedere Parte I sul video come un grafico ed è Seconda parte su trasformatori video-testo sparsi.

I primi due blog di questa serie hanno descritto come diversi motivi architettonici, dalle reti neurali a grafo ai trasformatori sparsi, hanno affrontato le sfide dell'apprendimento della rappresentazione video “di lunga durata”. Abbiamo mostrato come i metodi espliciti basati su grafici possano aggregare un contesto temporale 5-10 volte più ampio, ma erano metodi in due fasi. Successivamente, abbiamo esplorato come possiamo rendere la memoria e il calcolo efficienti modelli apprendibili end-to-end basati su trasformatori e aggregarli su un contesto temporale 2 volte più ampio.

In questo blog ti porterò alle nostre ultime e più grandi esplorazioni, in particolare per la comprensione egocentrica dei video. Come puoi immaginare, un video egocentrico o in prima persona (catturato solitamente da telecamere montate sulla testa) molto probabilmente proviene da una telecamera sempre accesa, il che significa che i video sono davvero molto lunghi, con molte informazioni visive irrilevanti, specialmente quando chi indossa la fotocamera muove la testa. E questo accade molte volte con le telecamere montate sulla testa. Un’analisi adeguata di tali video in prima persona può consentire una comprensione dettagliata di come gli esseri umani interagiscono con l’ambiente, di come manipolano gli oggetti e, in definitiva, quali sono i loro obiettivi e intenzioni. Le applicazioni tipiche dei sistemi di visione egocentrici richiedono algoritmi in grado di rappresentare ed elaborare video su intervalli temporali che durano nell'ordine di minuti o ore. Esempi di tali applicazioni sono l'anticipazione dell'azione, il riepilogo video e il recupero della memoria episodica.

Figura 1: (Immagine dell'autore) I grafici delle scene d'azione egocentriche sono grafici dinamici temporali (G

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *