Approfondimenti illuminanti: GPT estrae il significato da grafici e tabelle |  di Ilia Teimouri |  Dicembre 2023

 | Intelligenza-Artificiale

Utilizzo di GPT Vision per interpretare e aggregare i dati delle immagini.

fotografato da Davide Travis SU Unsplash.

L’integrazione di input visivi come immagini insieme a testo e parlato in modelli linguistici di grandi dimensioni (LLM) è considerata una nuova importante direzione nella ricerca sull’intelligenza artificiale da molti esperti del settore. Aumentando questi modelli per gestire più modalità di dati oltre al semplice linguaggio, esiste il potenziale per ampliare in modo significativo l’ambito delle applicazioni per cui possono essere utilizzati, nonché per migliorare la loro intelligenza complessiva e le prestazioni sulle attività di PNL esistenti.

La promessa dell’intelligenza artificiale multimodale spazia da esperienze utente più coinvolgenti come agenti conversazionali che possono vedere l’ambiente circostante e fare riferimento agli oggetti che li circondano, fino a robot che possono tradurre fluidamente i comandi in azioni fisiche utilizzando la conoscenza combinata del linguaggio e della visione. Unendo aree storicamente separate dell’intelligenza artificiale attorno a un’architettura modello unificata, la multimodalità può accelerare il progresso nelle attività che si basano su molteplici competenze come la risposta visiva alle domande o la didascalia delle immagini. Le sinergie tra algoritmi di apprendimento, tipi di dati e progetti di modelli in tutti i campi potrebbero portare a rapidi progressi.

Molte aziende hanno già abbracciato la multimodalità in varie forme: OpenAI, AntropicoGoogle (Bardo E Gemelli) ti consentono di caricare la tua immagine o dati di testo e chattare con loro.

In questo articolo, spero di dimostrare un’applicazione semplice ma potente di grandi modelli linguistici con la visione artificiale in finanza. I ricercatori azionari e gli analisti di investment banking potrebbero trovarlo particolarmente utile, poiché probabilmente passerai molto tempo a leggere rapporti e dichiarazioni contenenti varie tabelle e grafici. Leggere tabelle e grafici estesi e interpretarli correttamente richiede molto tempo, conoscenza del settore e un’adeguata concentrazione per evitare errori. Più noiosamente, gli analisti occasionalmente devono inserire manualmente dati tabulari dai PDF semplicemente per creare nuovi grafici. Una soluzione automatizzata potrebbe alleviare questi problemi estraendo e interpretando le informazioni chiave senza la capacità di supervisione o fatica umana.

Infatti, combinando la PNL con la visione artificiale, possiamo creare un assistente per gestire molti compiti analitici ripetitivi, liberando gli analisti di concentrarsi su attività di livello superiore…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *