Iniziare con la multimodalità |  di Valentina Alto |  Dicembre 2023

 | Intelligenza-Artificiale

Immagine creata con Microsoft Designer

Comprensione delle capacità visive dei grandi modelli multimodali

I recenti progressi nell’intelligenza artificiale generativa hanno consentito lo sviluppo di modelli multimodali di grandi dimensioni (LMM) in grado di elaborare e generare diversi tipi di dati, come testo, immagini, audio e video.

Gli LMM condividono con i Large Language Models (LLM) “standard” la capacità di generalizzazione e adattamento tipica dei Large Foundation Models. Tuttavia, gli LMM sono in grado di elaborare dati che vanno oltre il testo, comprese immagini, audio e video.

Uno degli esempi più importanti di modelli multimodali di grandi dimensioni è GPT4V(ision), l’ultima iterazione della famiglia Generative Pre-trained Transformer (GPT). GPT-4 può eseguire varie attività che richiedono sia la comprensione del linguaggio naturale che la visione artificiale, come sottotitoli di immagini, risposte visive a domande, sintesi da testo a immagine e traduzione da immagine a testo.

Il GPT4V (insieme alla sua versione più recente, la visione GPT-4-turbo), ha dimostrato capacità straordinarie, tra cui:

  • Ragionamento matematico su problemi numerici:
Immagine dell’autore
  • Generazione di codice da schizzi:
Immagine dell’autore
Immagine dell’autore
  • Descrizione dei patrimoni artistici:
Immagine dell’autore

E molti altri.

In questo articolo ci concentreremo sulle capacità di visione degli LMM e su come differiscono dagli algoritmi standard di visione artificiale.

Cos’è la visione artificiale

La Computer Vision (CV) è un campo dell’intelligenza artificiale (AI) che consente a computer e sistemi di derivare…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *