L’ultimo modello ERNIE di Baidu, un’intelligenza artificiale multimodale super efficiente, sta battendo GPT e Gemelli su parametri di riferimento e obiettivi chiave, dati aziendali spesso ignorati dai modelli incentrati sul testo.
Per molte aziende, informazioni preziose sono racchiuse in schemi tecnici, feed video di fabbrica, scansioni mediche e dashboard logistici. Il nuovo modello di Baidu, ERNIE-4.5-VL-28B-A3B-Thinking, è progettato per colmare questa lacuna.
Ciò che interessa agli architetti aziendali non è solo la sua capacità multimodale, ma la sua architettura. Viene descritto come un modello “leggero”, che attiva solo tre miliardi di parametri durante il funzionamento. Questo approccio mira agli elevati costi di inferenza che spesso bloccano i progetti di scalabilità dell’intelligenza artificiale. Baidu scommette sull’efficienza come percorso di adozione, formando il sistema come base per “agenti multimodali” in grado di ragionare e agire, non solo di percepire.
Funzionalità complesse di analisi visiva dei dati supportate da benchmark AI
Il modello AI multimodale ERNIE di Baidu eccelle nella gestione di dati densi e non testuali. Ad esempio, può interpretare un grafico “Peak Time Reminder” per trovare orari di visita ottimali, un’attività che riflette le sfide di pianificazione delle risorse nella logistica o nella vendita al dettaglio.
ERNIE 4.5 mostra anche capacità in ambiti tecnici, come la risoluzione di uno schema circuitale a ponte applicando le leggi di Ohm e Kirchhoff. Per i settori di ricerca e sviluppo e di ingegneria, un futuro assistente potrebbe convalidare progetti o spiegare schemi complessi ai nuovi assunti.
Questa funzionalità è supportata dai benchmark di Baidu, che mostrano che ERNIE-4.5-VL-28B-A3B-Thinking supera concorrenti come GPT-5-High e Gemini 2.5 Pro in alcuni test chiave:
- MathVista: ERNIE (82,5) contro Gemini (82,3) e GPT (81,3)
- ChartQA: ERNIE (87,1) vs Gemini (76,3) e GPT (78,2)
- I VLM sono ciechi: ERNIE (77,3) vs Gemini (76,5) e GPT (69,6)
Vale la pena notare, ovviamente, che i benchmark AI forniscono una guida ma può essere difettoso. Esegui sempre test interni per le tue esigenze prima di implementare qualsiasi modello di intelligenza artificiale per applicazioni mission-critical.
Baidu passa dalla percezione all’automazione con il suo ultimo modello ERNIE AI
L’ostacolo principale per l’intelligenza artificiale aziendale è il passaggio dalla percezione (“cos’è questo?”) all’automazione (“e adesso?”). ERNIE 4.5 afferma di risolvere questo problema integrando la base visiva con l’uso degli strumenti.
Chiedere all’intelligenza artificiale multimodale di trovare tutte le persone che indossano abiti in un’immagine e restituire le loro coordinate in formato JSON funziona. Il modello genera dati strutturati, una funzione facilmente trasferibile a una linea di produzione per l’ispezione visiva o a un sistema di controllo delle immagini del sito per la conformità alla sicurezza.
Il modello gestisce anche strumenti esterni e può ingrandire autonomamente una fotografia per leggere piccoli testi. Se si trova di fronte a un oggetto sconosciuto, può attivare una ricerca di immagini per identificarlo. Ciò rappresenta una forma meno passiva di intelligenza artificiale che potrebbe consentire a un agente non solo di segnalare un errore del data center, ma anche di ingrandire il codice, effettuare ricerche nella knowledge base interna e suggerire la soluzione.
Sbloccare la business intelligence con l’intelligenza artificiale multimodale
L’ultimo modello ERNIE AI di Baidu si rivolge anche agli archivi video aziendali, dalle sessioni di formazione e riunioni ai filmati di sicurezza. Può estrarre tutti i sottotitoli sullo schermo e mapparli sui loro timestamp precisi.
Dimostra anche consapevolezza temporale, trovando scene specifiche (come quelle “girate su un ponte”) analizzando i segnali visivi. L’obiettivo finale chiaro è quello di rendere ricercabili vaste librerie video, consentendo a un dipendente di trovare il momento esatto in cui un argomento specifico è stato discusso in un webinar di due ore durante il quale potrebbe essersi appisolato un paio di volte.
Baidu fornisce indicazioni sulla distribuzione per diversi percorsi, inclusi trasformatori, vLLM e FastDeploy. Tuttavia, i requisiti hardware rappresentano un ostacolo importante. Una distribuzione a scheda singola richiede 80 GB di memoria GPU. Questo non è uno strumento per la sperimentazione casuale, ma per le organizzazioni con un’infrastruttura AI esistente e ad alte prestazioni.
Per chi dispone dell’hardware, il toolkit ERNIEKit di Baidu consente la messa a punto dei dati proprietari; una necessità per la maggior parte dei casi d’uso di alto valore. Baidu fornisce al suo ultimo modello ERNIE AI una licenza Apache 2.0 che ne consente l’uso commerciale, essenziale per l’adozione.
Il mercato si sta finalmente muovendo verso un’intelligenza artificiale multimodale in grado di vedere, leggere e agire all’interno di uno specifico contesto aziendale, e i benchmark suggeriscono che lo sta facendo con capacità impressionanti. Il compito immediato è identificare i lavori di ragionamento visivo di alto valore all’interno della propria attività e valutarli rispetto ai costi sostanziali di hardware e governance.
Vedi anche: Wiz: Nella corsa globale all’intelligenza artificiale emergono delle carenze in termini di sicurezza

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici tra cui Fiera della sicurezza informatica. Clic Qui per ulteriori informazioni
AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.
Fonte: www.artificialintelligence-news.com
