Apprendimento della rappresentazione video di lunga durata (Parte 3: Apprendimento della rappresentazione video egocentrica di lunga durata) | di Subarna Tripathi | Maggio 2024 | Intelligenza-Artificiale

Esploriamo nuovi metodi di apprendimento della rappresentazione video dotati di capacità di ragionamento di lunga durata. Questa è la Parte III che fornisce un'anteprima delle nostre ultime e più grandi esplorazioni per l'apprendimento della rappresentazione video egocentrica “a lungo termine”. Vedere Parte I sul video come un grafico ed è Seconda parte su trasformatori video-testo sparsi.

I primi due blog di questa serie hanno descritto come diversi motivi architettonici, dalle reti neurali a grafo ai trasformatori sparsi, hanno affrontato le sfide dell'apprendimento della rappresentazione video “di lunga durata”. Abbiamo mostrato come i metodi espliciti basati su grafici possano aggregare un contesto temporale 5-10 volte più ampio, ma erano metodi in due fasi. Successivamente, abbiamo esplorato come possiamo rendere la memoria e il calcolo efficienti modelli apprendibili end-to-end basati su trasformatori e aggregarli su un contesto temporale 2 volte più ampio.

In questo blog ti porterò alle nostre ultime e più grandi esplorazioni, in particolare per la comprensione egocentrica dei video. Come puoi immaginare, un video egocentrico o in prima persona (catturato solitamente da telecamere montate sulla testa) molto probabilmente proviene da una telecamera sempre accesa, il che significa che i video sono davvero molto lunghi, con molte informazioni visive irrilevanti, specialmente quando chi indossa la fotocamera muove la testa. E questo accade molte volte con le telecamere montate sulla testa. Un’analisi adeguata di tali video in prima persona può consentire una comprensione dettagliata di come gli esseri umani interagiscono con l’ambiente, di come manipolano gli oggetti e, in definitiva, quali sono i loro obiettivi e intenzioni. Le applicazioni tipiche dei sistemi di visione egocentrici richiedono algoritmi in grado di rappresentare ed elaborare video su intervalli temporali che durano nell'ordine di minuti o ore. Esempi di tali applicazioni sono l'anticipazione dell'azione, il riepilogo video e il recupero della memoria episodica.

Figura 1: (Immagine dell'autore) I grafici delle scene d'azione egocentriche sono grafici dinamici temporali (G

Fonte: towardsdatascience.com

Navigazione articolo

Articolo precedente:
Funzionalità segreta di SQL Server: esegui Python e componenti aggiuntivi in modo nativo in SQL Server | di Sasha Korovkina | Maggio 2024 | Intelligenza-Artificiale
Articolo successivo:
Intervista sulla progettazione di sistemi Mastering GenAI ML: principi e descrizione della soluzione | di Jack Chih-Hsu Lin | Maggio 2024 | Intelligenza-Artificiale

Lascia un commento Annulla risposta
Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *
Commento *
Nome *

Email *

Sito web

Salva il mio nome, email e sito web in questo browser per la prossima volta che commento.

Articoli Correlati

Machine Learning

Ho conseguito una certificazione in AI. Ecco cosa mi ha insegnato sul prompt engineering. | Intelligenza-Artificiale

Giugno 22, 2024 0

Machine Learning

Analisi esplorativa dei dati in 11 passaggi | di Loren Hinkson | Giugno 2024 | Intelligenza-Artificiale

Giugno 22, 2024 0

Cerca

Post recenti

AMD investirà fino a 5 miliardi di dollari in Anthropic nell’ambito di un accordo sulle infrastrutture AI | Intelligenza-Artificiale

Sodex Innovations raccoglie 4 milioni di euro per il rilevamento delle costruzioni con intelligenza artificiale | Intelligenza-Artificiale

Nvidia scommette che l’intelligenza artificiale fisica può risolvere il problema dei dati della robotica sanitaria | Intelligenza-Artificiale

Google stanzia 40 milioni di dollari per la Genesis Mission | Intelligenza-Artificiale

Il progetto Galaxy di SenseTime mira allo scale-up dei chip AI domestici | Intelligenza-Artificiale

Commenti recenti

Nessun commento da mostrare.

Categorie

AI Startups

AI Tools

Chatbots

Chatgpt

Machine Learning

Di tendenza

1

Chatbots

AMD investirà fino a 5 miliardi di dollari in Anthropic nell’ambito di un accordo sulle infrastrutture AI | Intelligenza-Artificiale

Luglio 23, 2026 0

2

AI Startups

Sodex Innovations raccoglie 4 milioni di euro per il rilevamento delle costruzioni con intelligenza artificiale | Intelligenza-Artificiale

Luglio 23, 2026 0

3

Chatbots

Nvidia scommette che l’intelligenza artificiale fisica può risolvere il problema dei dati della robotica sanitaria | Intelligenza-Artificiale

Luglio 23, 2026 0

4

AI Tools

Google stanzia 40 milioni di dollari per la Genesis Mission | Intelligenza-Artificiale

Luglio 22, 2026 0

5

Chatbots

Il progetto Galaxy di SenseTime mira allo scale-up dei chip AI domestici | Intelligenza-Artificiale

Luglio 22, 2026 0

Seguici

Facebook

Twitter

Linkedin

VK

Youtube

Instagram

Ultimi post

Chatbots

AMD investirà fino a 5 miliardi di dollari in Anthropic nell’ambito di un accordo sulle infrastrutture AI | Intelligenza-Artificiale

Antonio F. Luglio 23, 2026 0

AMD ha accettato di investire fino a 5 miliardi di dollari in Anthropic nell’ambito...
Leggi tutto

AI Startups

Sodex Innovations raccoglie 4 milioni di euro per il rilevamento delle costruzioni con intelligenza artificiale | Intelligenza-Artificiale

Luglio 23, 2026 0

Chatbots

Nvidia scommette che l’intelligenza artificiale fisica può risolvere il problema dei dati della robotica sanitaria | Intelligenza-Artificiale

Luglio 23, 2026 0

AI Tools

Google stanzia 40 milioni di dollari per la Genesis Mission | Intelligenza-Artificiale

Luglio 22, 2026 0