I recenti progressi nell’intelligenza artificiale generativa hanno consentito lo sviluppo di modelli multimodali di grandi dimensioni (LMM) in grado di elaborare e generare diversi tipi di dati, come testo, immagini, audio e video.
Gli LMM condividono con i Large Language Models (LLM) “standard” la capacità di generalizzazione e adattamento tipica dei Large Foundation Models. Tuttavia, gli LMM sono in grado di elaborare dati che vanno oltre il testo, comprese immagini, audio e video.
Uno degli esempi più importanti di modelli multimodali di grandi dimensioni è GPT4V(ision), l’ultima iterazione della famiglia Generative Pre-trained Transformer (GPT). GPT-4 può eseguire varie attività che richiedono sia la comprensione del linguaggio naturale che la visione artificiale, come sottotitoli di immagini, risposte visive a domande, sintesi da testo a immagine e traduzione da immagine a testo.
Il GPT4V (insieme alla sua versione più recente, la visione GPT-4-turbo), ha dimostrato capacità straordinarie, tra cui:
- Ragionamento matematico su problemi numerici:
- Generazione di codice da schizzi:
- Descrizione dei patrimoni artistici:
E molti altri.
In questo articolo ci concentreremo sulle capacità di visione degli LMM e su come differiscono dagli algoritmi standard di visione artificiale.
Cos’è la visione artificiale
La Computer Vision (CV) è un campo dell’intelligenza artificiale (AI) che consente a computer e sistemi di derivare…
Fonte: towardsdatascience.com