Hugging Face lancia il modello di linguaggio visivo Idefics2 | Intelligenza-Artificiale

Il viso abbracciato ha annunciato il rilascio di Idefics2, un modello versatile in grado di comprendere e generare risposte testuali basate sia su immagini che su testi. Il modello stabilisce un nuovo punto di riferimento per rispondere a domande visive, descrivere contenuti visivi, creare storie da immagini, estrarre informazioni da documenti e persino eseguire operazioni aritmetiche basate su input visivi.

Idefics2 supera il suo predecessore, Idefics1, con soli otto miliardi di parametri e la versatilità offerta dalla sua licenza aperta (Apache 2.0), insieme a capacità di riconoscimento ottico dei caratteri (OCR) notevolmente migliorate.

Il modello non solo mostra prestazioni eccezionali nei benchmark di risposta visiva alle domande, ma mantiene anche la sua posizione rispetto a concorrenti molto più grandi come LLava-Next-34B e MM1-30B-chat:

Al centro del fascino di Idefics2 c'è la sua integrazione con i Transformers di Hugging Face fin dall'inizio, garantendo facilità di messa a punto per un'ampia gamma di applicazioni multimodali. Per coloro che desiderano immergersi, sono disponibili modelli per sperimentazione sull'Hugging Face Hub.

Una caratteristica distintiva di Idefics2 è la sua filosofia di formazione completa, che unisce set di dati liberamente disponibili inclusi documenti web, coppie di immagini-didascalie e dati OCR. Inoltre, introduce un innovativo set di dati di perfezionamento denominato “The Cauldron”, che unisce 50 set di dati meticolosamente curati per una formazione conversazionale multiforme.

Idefics2 mostra un approccio raffinato alla manipolazione delle immagini, mantenendo risoluzioni e proporzioni native, una notevole deviazione dalle norme di ridimensionamento convenzionali nella visione artificiale. La sua architettura beneficia in modo significativo delle funzionalità OCR avanzate, trascrivendo abilmente il contenuto testuale all'interno di immagini e documenti e vanta prestazioni migliorate nell'interpretazione di grafici e figure.

La semplificazione dell'integrazione delle funzionalità visive nella struttura linguistica segna un cambiamento rispetto all'architettura del suo predecessore, con l'adozione di un pool di perceiver appreso e di una proiezione in modalità MLP che migliora l'efficacia complessiva di Idefics2.

Questo progresso nei modelli visione-linguaggio apre nuove strade per esplorare le interazioni multimodali, con Idefics2 pronto a fungere da strumento fondamentale per la comunità. I miglioramenti delle prestazioni e le innovazioni tecniche sottolineano il potenziale della combinazione di dati visivi e testuali nella creazione di sistemi di intelligenza artificiale sofisticati e sensibili al contesto.

Per gli appassionati e i ricercatori che desiderano sfruttare le capacità di Idefics2, Hugging Face fornisce una messa a punto dettagliata tutorial.

Guarda anche: OpenAI rende GPT-4 Turbo con Vision API generalmente disponibile

Vuoi saperne di più sull'intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell'intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L'evento completo è collocato in contemporanea con altri eventi importanti, tra cui BlockX, Settimana della trasformazione digitaleE Fiera sulla sicurezza informatica e sul cloud.

Esplora altri prossimi eventi e webinar sulla tecnologia aziendale forniti da TechForge Qui.

tag: ai, intelligenza artificiale, segno di riferimento, viso abbracciato, idefici 2, idefics2, Modello, linguaggio-visione