NVIDIA presenta gli ultimi progressi nell'intelligenza artificiale visiva | Intelligenza-Artificiale

I ricercatori NVIDIA presentano nuovi modelli e tecniche di intelligenza artificiale visiva generativa al Visione artificiale e riconoscimento di modelli (CVPR) questa settimana a Seattle. I progressi abbracciano aree come la generazione di immagini personalizzate, l’editing di scene 3D, la comprensione del linguaggio visivo e la percezione dei veicoli autonomi.

“L'intelligenza artificiale, e l'intelligenza artificiale generativa in particolare, rappresenta un progresso tecnologico fondamentale”, ha affermato Jan Kautz, vicepresidente della ricerca sull'apprendimento e la percezione presso NVIDIA.

“Al CVPR, NVIDIA Research condivide il modo in cui stiamo spingendo i confini di ciò che è possibile: da potenti modelli di generazione di immagini che potrebbero potenziare i creatori professionisti a software di guida autonoma che potrebbero aiutare a realizzare auto a guida autonoma di prossima generazione.”

Tra gli oltre 50 progetti di ricerca NVIDIA presentati, due articoli sono stati selezionati come finalisti per i Best Paper Awards del CVPR: uno esplora il dinamiche di addestramento dei modelli di diffusione e un altro su mappe ad alta definizione per auto a guida autonoma.

Inoltre, NVIDIA ha vinto il percorso End-to-End Driving at Scale del CVPR Autonomous Grand Challenge, superando oltre 450 partecipanti a livello globale. Questo traguardo dimostra il lavoro pionieristico di NVIDIA nell'utilizzo dell'intelligenza artificiale generativa per modelli completi di veicoli a guida autonoma, ottenendo anche un premio per l'innovazione da CVPR.

Uno dei progetti di ricerca principali è JeDiuna nuova tecnica che consente ai creatori di personalizzare rapidamente i modelli di diffusione – l’approccio principale per la generazione di testo in immagine – per rappresentare oggetti o personaggi specifici utilizzando solo poche immagini di riferimento, anziché il lungo processo di messa a punto su set di dati personalizzati .

Un'altra svolta è Posa del fondotintaun nuovo modello di fondazione in grado di comprendere e monitorare istantaneamente la posa 3D degli oggetti nei video senza addestramento per oggetto. Ha stabilito un nuovo record di prestazioni e potrebbe sbloccare nuove applicazioni AR e robotica.

I ricercatori NVIDIA hanno anche introdotto NeRFDeformer, un metodo per modificare la scena 3D catturata da un Neural Radiance Field (NeRF) utilizzando una singola istantanea 2D, invece di dover rianimare manualmente le modifiche o ricreare interamente il NeRF. Ciò potrebbe semplificare l’editing di scene 3D per applicazioni di grafica, robotica e gemelli digitali.

Sul fronte del linguaggio visivo, NVIDIA ha collaborato con il MIT per lo sviluppo VILAuna nuova famiglia di modelli di linguaggio visivo che raggiungono prestazioni all'avanguardia nella comprensione di immagini, video e testo. Con capacità di ragionamento migliorate, VILA può persino comprendere i meme di Internet combinando la comprensione visiva e linguistica.

La ricerca sull'intelligenza artificiale visiva di NVIDIA abbraccia numerosi settori, tra cui oltre una dozzina di articoli che esplorano nuovi approcci per la percezione, la mappatura e la pianificazione dei veicoli autonomi. Sanja Fidler, vicepresidente del team di ricerca sull'intelligenza artificiale di NVIDIA, presenta il potenziale dei modelli di linguaggio visivo per le auto a guida autonoma.

L'ampiezza della ricerca CVPR di NVIDIA esemplifica il modo in cui l'intelligenza artificiale generativa potrebbe potenziare i creatori, accelerare l'automazione nel settore manifatturiero e sanitario, spingendo al contempo l'autonomia e la robotica.

(Fotografato da v2osk)

Guarda anche: NLEP: colmare il divario tra LLM e ragionamento simbolico