Come creare potenti rappresentazioni AI combinando informazioni multimodali | di Eivind Kjosbakken | Aprile 2024 | Intelligenza-Artificiale

Scopri come incorporare informazioni multimodali nel tuo sistema di machine learning

In questo articolo, discuterò di come incorporare informazioni da diverse modalità nel tuo sistema di apprendimento automatico. Queste modalità possono essere informazioni come un'immagine, testo o audio. Possono anche trattarsi, ad esempio, di più immagini dello stesso oggetto riprese da diverse angolazioni. L'aggiunta di informazioni da diverse modalità fornisce al sistema di apprendimento automatico più informazioni con cui lavorare, il che può, a sua volta, aumentare le prestazioni del sistema.

Scopri come combinare le informazioni provenienti da diverse modalità in questo articolo. Immagine di ChatGPT. “crea un'immagine della combinazione di informazioni multimodali all'interno dell'apprendimento automatico”. *ChatGPT*4, OpenAI, 1 aprile 2024. https://chat.openai.com.

La motivazione per questo articolo è che attualmente sto lavorando su un problema in cui dispongo di informazioni da due diverse modalità. La prima modalità è l'informazione visiva di un documento e la seconda modalità è il testo contenuto nel documento. Separatamente, un sistema di apprendimento automatico può ottenere prestazioni decenti utilizzando solo i dati visivi del documento o i dati testuali del testo nel documento. Tuttavia, se si utilizza solo una delle due modalità disponibili, è necessario fornire al machine learning tutte le informazioni possibili per ottenere le migliori prestazioni. Pertanto, dovresti combinare diverse modalità per garantire le migliori prestazioni possibili del tuo sistema di machine learning.

Sebbene spesso si dispongano di due modalità dati quando si lavora con sistemi multimodali, è possibile adattare tutti gli approcci discussi di seguito a tre o più modalità dati. Sto utilizzando due modalità principalmente per descrivere gli approcci nel modo più semplice possibile.

Puoi vedere lo schema generale di ciascun approccio di cui parlo in questo articolo. Innanzitutto sono necessarie almeno due modalità di informazione: un'immagine e il testo di un documento. Quindi, crei incorporamenti di ciascuna modalità. Questi incorporamenti vengono quindi combinati in un processo di combinazione, che rappresenterà quindi l'informazione multimodale.