Nuovo punto di riferimento per la valutazione di sistemi multimodali basati su dati video, audio e di testo del mondo reale

Dal Prova di Turing A ImageNeti benchmark hanno svolto un ruolo determinante nel plasmare l’intelligenza artificiale (AI) aiutando a definire gli obiettivi di ricerca e consentendo ai ricercatori di misurare i progressi verso tali obiettivi. Incredibili scoperte negli ultimi 10 anni, come ad esempio AlexNet nella visione artificiale e AlphaFold nel ripiegamento delle proteine, sono stati strettamente collegati all’utilizzo di set di dati di riferimento, consentendo ai ricercatori di classificare le scelte di progettazione e formazione del modello e di ripetere per migliorare i loro modelli. Mentre lavoriamo verso l’obiettivo di costruire un’intelligenza generale artificiale (AGI), lo sviluppo di benchmark solidi ed efficaci che espandano le capacità dei modelli di intelligenza artificiale è importante quanto lo sviluppo dei modelli stessi.

La percezione – il processo di esperienza del mondo attraverso i sensi – è una parte significativa dell’intelligenza. E costruire agenti con una comprensione percettiva del mondo a livello umano è un compito centrale ma impegnativo, che sta diventando sempre più importante nella robotica, nelle auto a guida autonoma, negli assistenti personali, nell’imaging medico e altro ancora. Quindi oggi presentiamo il Prova di percezioneun benchmark multimodale che utilizza video del mondo reale per aiutare a valutare le capacità di percezione di un modello.

Sviluppare un benchmark di percezione

Molti parametri di riferimento relativi alla percezione sono attualmente utilizzati nella ricerca sull’intelligenza artificiale, ad esempio Cinetica per il riconoscimento delle azioni video, Set audio per la classificazione degli eventi audio, CONTRO per il tracciamento di oggetti, o VQA per le risposte alle domande con immagini. Questi benchmark hanno portato a progressi sorprendenti nel modo in cui le architetture dei modelli di intelligenza artificiale e i metodi di formazione vengono costruiti e sviluppati, ma ognuno di essi prende di mira solo aspetti limitati della percezione: i benchmark delle immagini escludono aspetti temporali; la risposta visiva alle domande tende a concentrarsi sulla comprensione semantica della scena di alto livello; le attività di tracciamento degli oggetti generalmente acquisiscono l’aspetto di livello inferiore dei singoli oggetti, come il colore o la trama. E pochissimi benchmark definiscono i compiti sia in modalità audio che visiva.

Modelli multimodali, come Percettore, FenicotteroO BEiT-3mirano a essere modelli più generali di percezione. Ma le loro valutazioni si basavano su più set di dati specializzati perché non era disponibile alcun benchmark dedicato. Questo processo è lento, costoso e fornisce una copertura incompleta delle capacità generali di percezione come la memoria, rendendo difficile per i ricercatori confrontare i metodi.

Per affrontare molti di questi problemi, abbiamo creato un set di dati di video appositamente progettati di attività nel mondo reale, etichettati in base a sei diversi tipi di attività:

  1. Tracciamento degli oggetti: viene fornito un riquadro attorno a un oggetto all’inizio del video, il modello deve restituire una traccia completa durante l’intero video (anche attraverso le occlusioni).
  2. Tracciamento dei punti: viene selezionato un punto all’inizio del video, il modello deve tracciare il punto durante tutto il video (anche attraverso le occlusioni).
  3. Localizzazione dell’azione temporale: il modello deve localizzare e classificare temporalmente un insieme predefinito di azioni.
  4. Localizzazione temporale del suono: il modello deve localizzare e classificare temporalmente un insieme predefinito di suoni.
  5. Risposte a domande video a scelta multipla: domande testuali sul video, ciascuna con tre scelte tra cui selezionare la risposta.
  6. Risposte a domande video motivate: domande testuali sul video, il modello deve restituire una o più tracce di oggetti.

Ci siamo ispirati al modo in cui viene valutata la percezione dei bambini nella psicologia dello sviluppo, nonché a set di dati sintetici come CATER E INTELLIGENTEe ha progettato 37 script video, ciascuno con diverse varianti per garantire un set di dati equilibrato. Ogni variazione è stata filmata da almeno una dozzina di partecipanti in crowdsourcing (simile al lavoro precedente su Sciarade E Qualcosa qualcosa), con un totale di oltre 100 partecipanti, per un totale di 11.609 video, della durata media di 23 secondi.

I video mostrano semplici giochi o attività quotidiane, che ci consentirebbero di definire compiti che richiedono le seguenti competenze per essere risolti:

  • Conoscenza della semantica: testare aspetti come il completamento delle attività, il riconoscimento di oggetti, azioni o suoni.
  • Comprensione della fisica: collisioni, movimento, occlusioni, relazioni spaziali.
  • Ragionamento temporale o memoria: ordinamento temporale degli eventi, conteggio nel tempo, rilevamento di cambiamenti in una scena.
  • Abilità di astrazione: corrispondenza di forme, nozioni uguali/diverse, rilevamento di modelli.

I partecipanti provenienti dal crowdsourcing hanno etichettato i video con annotazioni spaziali e temporali (tracce del riquadro di delimitazione degli oggetti, tracce dei punti, segmenti di azione, segmenti sonori). Il nostro team di ricerca ha progettato le domande per tipo di script per le attività di risposta a domande video a scelta multipla e radicate per garantire una buona diversità di competenze testate, ad esempio domande che sondano la capacità di ragionare in modo controfattuale o di fornire spiegazioni per una determinata situazione. Le risposte corrispondenti per ciascun video sono state nuovamente fornite dai partecipanti in crowdsourcing.

Valutare sistemi multimodali con il Test di Percezione

Si presuppone che i modelli siano stati pre-addestrati su set di dati e attività esterni. Il test di percezione include un piccolo set di messa a punto (20%) che i creatori del modello possono facoltativamente utilizzare per trasmettere la natura dei compiti ai modelli. I restanti dati (80%) sono costituiti da una suddivisione di convalida pubblica e da una suddivisione di test in cui le prestazioni possono essere valutate solo tramite il nostro server di valutazione.

Qui mostriamo un diagramma della configurazione della valutazione: gli input sono una sequenza video e audio, più una specifica dell’attività. L’attività può essere in formato testo di alto livello per la risposta visiva a domande o input di basso livello, come le coordinate del riquadro di delimitazione di un oggetto per l’attività di tracciamento dell’oggetto.

Gli input (video, audio, specifica dell’attività come testo o altra forma) e gli output di un modello valutato in base al nostro benchmark.

I risultati della valutazione sono dettagliati su diverse dimensioni e misuriamo le abilità nei sei compiti computazionali. Per le attività di risposta visiva alle domande forniamo anche una mappatura delle domande sui tipi di situazioni mostrate nei video e i tipi di ragionamento richiesti per rispondere alle domande per un’analisi più dettagliata (vedi il nostro giornale per ulteriori dettagli). Un modello ideale massimizzerebbe i punteggi in tutti i grafici radar e in tutte le dimensioni. Si tratta di una valutazione dettagliata delle competenze di un modello, che ci consente di restringere le aree di miglioramento.

Rapporto diagnostico multidimensionale per un modello di percezione per compito computazionale, area e tipo di ragionamento. È possibile eseguire ulteriori diagnostiche in sottoaree quali: movimento, collisioni, conteggio, completamento dell’azione e altro.

Garantire la diversità dei partecipanti e delle scene mostrate nei video è stata una considerazione fondamentale durante lo sviluppo del benchmark. Per fare ciò, abbiamo selezionato partecipanti provenienti da diversi paesi di diverse etnie e generi e miravamo ad avere una rappresentanza diversa all’interno di ciascun tipo di sceneggiatura video.

Geolocalizzazione dei partecipanti crowdsourcing coinvolti nelle riprese.

Ulteriori informazioni sul test di percezione

Il benchmark del test di percezione è disponibile al pubblico Qui e ulteriori dettagli sono disponibili in il nostro giornale. Presto saranno disponibili anche una classifica e un server di sfida.

Il 23 ottobre 2022 ospiteremo un workshop sui modelli generali di percezione alla Conferenza Europea sulla Visione Artificiale a Tel Aviv (ECCV2022), dove discuteremo del nostro approccio e di come progettare e valutare modelli di percezione generale con altri importanti esperti del settore.

Ci auguriamo che il test di percezione ispiri e guidi ulteriori ricerche verso modelli di percezione generali. In futuro, speriamo di collaborare con la comunità di ricerca multimodale per introdurre ulteriori annotazioni, attività, metriche o anche nuovi linguaggi nel benchmark.

Contattaci inviando un’e-mail percezione-test@google.com se sei interessato a contribuire!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *