Valutazione degli agenti interattivi multimodali - Google DeepMind | Intelligenza-Artificiale

Per addestrare gli agenti a interagire bene con gli esseri umani, dobbiamo essere in grado di misurare i progressi. Ma l’interazione umana è complessa e misurare il progresso è difficile. In questo lavoro abbiamo sviluppato un metodo, chiamato Standardized Test Suite (STS), per valutare agenti in interazioni multimodali temporalmente estese. Abbiamo esaminato le interazioni che consistono in partecipanti umani che chiedono agli agenti di eseguire compiti e rispondere a domande in un ambiente simulato 3D.

La metodologia STS colloca gli agenti in una serie di scenari comportamentali estratti da dati di interazione umana reale. Gli agenti vedono il contesto di uno scenario riprodotto, ricevono un’istruzione e ricevono quindi il controllo per completare l’interazione offline. Queste continuazioni dell’agente vengono registrate e quindi inviate a valutatori umani per annotarle come successo o fallimento. Gli agenti vengono quindi classificati in base alla proporzione di scenari in cui riescono.

Molti dei comportamenti che sono una seconda natura per gli esseri umani nelle nostre interazioni quotidiane sono difficili da esprimere a parole e impossibili da formalizzare. Pertanto, il meccanismo utilizzato per risolvere giochi (come Atari, Go, DotA e Starcraft) con l’apprendimento per rinforzo non funzionerà quando proviamo a insegnare agli agenti ad avere interazioni fluide e di successo con gli esseri umani. Ad esempio, pensa alla differenza tra queste due domande: “Chi ha vinto questa partita di Go?” contro “Cosa stai guardando?” Nel primo caso possiamo scrivere un pezzo di codice informatico che conta le pietre sul tabellone alla fine del gioco e determina con certezza il vincitore. Nel secondo caso, non abbiamo idea di come codificarlo: la risposta può dipendere da chi parla, dalla dimensione e dalla forma degli oggetti coinvolti, se chi parla sta scherzando e da altri aspetti del contesto in cui viene pronunciata l’enunciazione. Gli esseri umani comprendono intuitivamente la miriade di fattori rilevanti coinvolti nella risposta a questa domanda apparentemente banale.

La valutazione interattiva da parte di partecipanti umani può fungere da pietra di paragone per comprendere le prestazioni degli agenti, ma è un processo rumoroso e costoso. È difficile controllare le istruzioni esatte che gli esseri umani danno agli agenti quando interagiscono con loro per la valutazione. Anche questo tipo di valutazione avviene in tempo reale, quindi è troppo lento fare affidamento su di esso per ottenere rapidi progressi. I lavori precedenti si sono basati su proxy per la valutazione interattiva. I proxy, come le perdite e le attività di indagine programmate (ad esempio “sollevare x” dove x è selezionato casualmente dall’ambiente e la funzione di successo è scrupolosamente realizzata a mano), sono utili per ottenere rapidamente informazioni sugli agenti, ma in realtà non sono correlati così bene con la valutazione interattiva. Il nostro nuovo metodo presenta dei vantaggi, soprattutto quello di fornire controllo e velocità a un sistema di misurazione che si allinea strettamente al nostro obiettivo finale: creare agenti che interagiscano bene con gli esseri umani.

Lo sviluppo di MNIST, ImageNet e altri set di dati con annotazioni umane è stato essenziale per il progresso nell’apprendimento automatico. Questi set di dati hanno consentito ai ricercatori di addestrare e valutare modelli di classificazione per un costo una tantum di input umani. La metodologia STS mira a fare lo stesso per la ricerca sull’interazione uomo-agente. Questo metodo di valutazione richiede ancora che gli esseri umani annotino le continuazioni dell’agente; tuttavia, i primi esperimenti suggeriscono che potrebbe essere possibile l’automazione di queste annotazioni, il che consentirebbe una valutazione automatizzata rapida ed efficace degli agenti interattivi. Nel frattempo, speriamo che altri ricercatori possano utilizzare la metodologia e la progettazione del sistema per accelerare la propria ricerca in questo settore.

Fonte: deepmind.google