D4RT: ricostruzione e tracciamento unificato e veloce di scene 4D

 | Intelligenza-Artificiale

Presentazione di D4RT, un modello AI unificato per la ricostruzione e il tracciamento di scene 4D nello spazio e nel tempo.

Ogni volta che guardiamo il mondo, compiamo una straordinaria impresa di memoria e previsione. Vediamo e comprendiamo le cose come sono in un dato momento, come erano un momento fa e come saranno nel momento successivo. Il nostro modello mentale del mondo mantiene una rappresentazione persistente della realtà e utilizziamo quel modello per trarre conclusioni intuitive sulla relazione causale tra passato, presente e futuro.

Per aiutare le macchine a vedere il mondo più come lo vediamo noi, possiamo dotarle di telecamere, ma questo risolve solo il problema degli input. Per dare un senso a questo input, i computer devono risolvere un problema complesso e inverso: prendere un video – che è una sequenza di proiezioni 2D piatte – e recuperare o comprendere il ricco mondo volumetrico 3D, in movimento.

Oggi vi presentiamo D4RT (Ricostruzione e tracciamento dinamico 4D)un nuovo modello di intelligenza artificiale che unifica la ricostruzione dinamica della scena in un unico quadro efficiente, avvicinandoci alla prossima frontiera dell’intelligenza artificiale: la percezione totale della nostra realtà dinamica.

La sfida della quarta dimensione

Per poter comprendere una scena dinamica catturata su un video 2D, un modello di intelligenza artificiale deve tracciare ogni pixel di ogni oggetto mentre si muove attraverso le tre dimensioni dello spazio e la quarta dimensione del tempo. Inoltre, deve districare questo movimento dal movimento della telecamera, mantenendo una rappresentazione coerente anche quando gli oggetti si muovono uno dietro l’altro o escono completamente dall’inquadratura. Tradizionalmente, catturare questo livello di geometria e movimento da video 2D richiede processi computazionalmente intensivi o un mosaico di modelli IA specializzati – alcuni per la profondità, altri per il movimento o gli angoli di ripresa – con conseguenti ricostruzioni IA lente e frammentate.

L’architettura semplificata di D4RT e il nuovo meccanismo di query lo collocano all’avanguardia nella ricostruzione 4D pur essendo fino a 300 volte più efficiente rispetto ai metodi precedenti: abbastanza veloce per applicazioni in tempo reale nella robotica, nella realtà aumentata e altro ancora.

Come funziona D4RT: un approccio basato su query

D4RT funziona come un’architettura Transformer codificatore-decodificatore unificata. Il codificatore elabora innanzitutto il video in ingresso in una rappresentazione compressa della geometria e del movimento della scena. A differenza dei sistemi precedenti che utilizzavano moduli separati per compiti diversi, D4RT calcola solo ciò di cui ha bisogno utilizzando un meccanismo di interrogazione flessibile incentrato su un’unica domanda fondamentale:

“Dov’è un dato pixel dal video situato nello spazio 3D in modo arbitrario tempocome visto da a fotocamera scelta?”

Basandosi su il nostro lavoro precedenteun decodificatore leggero interroga quindi questa rappresentazione per rispondere a istanze specifiche della domanda posta. Poiché le query sono indipendenti, possono essere elaborate in parallelo sul moderno hardware AI. Ciò rende D4RT estremamente veloce e scalabile, sia che si tratti di tracciare solo pochi punti o di ricostruire un’intera scena.

Fonte: deepmind.google

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *