
Samsung sta superando i limiti dei parametri di riferimento esistenti per valutare meglio la produttività del mondo reale dei modelli di AI nelle impostazioni aziendali. Il nuovo sistema, sviluppato da Research Samsung e nominato Truebench, mira a affrontare la crescente disparità tra le prestazioni teoriche dell’IA e la sua effettiva utilità sul posto di lavoro.
Mentre le imprese in tutto il mondo accelerano la loro adozione di modelli di grandi dimensioni (LLM) per migliorare le loro operazioni, è emersa una sfida: come valutare accuratamente la loro efficacia. Molti benchmark esistenti si concentrano su test accademici o di conoscenza generale, spesso limitati agli inglesi e ai semplici formati di domande e risposte. Ciò ha creato un divario che lascia le aziende senza un metodo affidabile per valutare come un modello di intelligenza artificiale si svolgerà su attività aziendali complesse, multilingue e ricche di contesto.
Il Truebench di Samsung, abbreviato per il benchmark di valutazione dell’utilizzo del mondo reale affidabile, è stato sviluppato per riempire questo vuoto. Fornisce una suite completa di metriche che valuta gli LLM in base a scenari e attività direttamente rilevanti per gli ambienti aziendali del mondo reale. Il benchmark si basa sull’ampio uso aziendale interno di Samsung dei modelli AI, garantendo che i criteri di valutazione siano fondati su richieste di lavoro autentiche.
Il framework valuta le funzioni aziendali comuni come la creazione di contenuti, l’analisi dei dati, la sintesi di documenti lunghi e la traduzione di materiali. Questi sono suddivisi in 10 categorie distinte e 46 sottocategorie, fornendo una visione granulare delle capacità di produttività di un’intelligenza artificiale.
“Samsung Research offre una profonda competenza e un vantaggio competitivo attraverso la sua esperienza di AI nel mondo reale”, ha affermato Paul (Kyungwhoon) Cheun, CTO della divisione DX presso Samsung Electronics e Head of Samsung Research. “Ci aspettiamo che Truebench stabilisca gli standard di valutazione per la produttività.”
Per affrontare i limiti di benchmark più vecchi, Truebench è costruito su una base di 2.485 diversi set di test che abbracciano 12 diverse lingue e supportano scenari incrociati. Questo approccio multilingue è fondamentale per le società globali in cui le informazioni fluiscono in diverse regioni. I materiali di prova stessi riflettono la varietà di richieste sul posto di lavoro, che vanno da brevi istruzioni di soli otto caratteri alla complessa analisi di documenti che superano i 20.000 caratteri.
Samsung ha riconosciuto che in un vero contesto aziendale, l’intenzione completa di un utente non è sempre esplicitamente dichiarato nel loro prompt iniziale. Il benchmark è quindi progettato per valutare la capacità di un modello di intelligenza artificiale di comprendere e soddisfare queste esigenze implicite aziendali, andando oltre la semplice accuratezza verso una misura più sfumata di disponibilità e rilevanza.
Per raggiungere questo obiettivo, Samsung Research ha sviluppato un processo collaborativo unico tra esperti umani e AI per creare i criteri di punteggio della produttività. Inizialmente, gli annotatori umani stabiliscono gli standard di valutazione per un determinato compito. Un’intelligenza artificiale quindi esamina questi standard, controllando potenziali errori, contraddizioni interne o vincoli inutili che potrebbero non riflettere un’aspettativa realistica degli utenti. In seguito al feedback dell’intelligenza artificiale, gli annotanti umani perfezionano i criteri. Questo ciclo iterativo garantisce che gli standard di valutazione finale siano precisi e che riflettono un risultato di alta qualità.
Questo processo cross-verificato offre un sistema di valutazione automatizzato che segna le prestazioni di LLMS. Utilizzando l’IA per applicare questi criteri raffinati, il sistema minimizza la distorsione soggettiva che può verificarsi con il punteggio solo umano, garantendo coerenza e affidabilità in tutti i test. Truebench impiega anche un modello di punteggio rigoroso in cui un modello di intelligenza artificiale deve soddisfare ogni condizione associata a un test per ricevere un segno di passaggio. Questo approccio tutto o nulla per le condizioni individuali consente una valutazione più dettagliata ed esigente delle prestazioni dei modelli di intelligenza artificiale attraverso diverse attività aziendali.
Per aumentare la trasparenza e incoraggiare l’adozione più ampia, Samsung ha reso pubblicamente disponibili campioni di dati e classifiche di Truebench sulla piattaforma globale che abbraccia. Ciò consente agli sviluppatori, ai ricercatori e alle aziende di confrontare direttamente le prestazioni di produttività fino a cinque diversi modelli di intelligenza artificiale contemporaneamente. La piattaforma fornisce una panoramica chiara, a colpo d’occhio di come vari AIS si accumulano tra loro su compiti pratici.
Al momento della stesura, ecco i primi 20 modelli in base alla classifica generale basata sul benchmark AI di Samsung:

I dati pubblicati completi includono anche la lunghezza media delle risposte generate dall’IA. Ciò consente un confronto simultaneo non solo delle prestazioni ma anche dell’efficienza, una considerazione chiave per le aziende che pesano i costi e la velocità operativi.
Con il lancio di Truebench, Samsung non sta semplicemente rilasciando un altro strumento, ma mira a cambiare il modo in cui l’industria pensa alle prestazioni di intelligenza artificiale. Spostando i goalpost dalle conoscenze astratte alla produttività tangibile, il benchmark di Samsung potrebbe svolgere un ruolo nell’aiutare le organizzazioni a prendere decisioni migliori su quali modelli di intelligenza artificiale imprese integrare nei loro flussi di lavoro e colmare il divario tra il potenziale di un’intelligenza artificiale e il suo valore comprovato.
Vedi anche: All’interno del piano di Huawei di far pensare a migliaia di patatine AI come un computer

Vuoi saperne di più sull’intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L’evento completo fa parte di Techex ed è collocato con altri eventi tecnologici leader, clicca Qui Per ulteriori informazioni.
AI News è alimentato da TechForge Media. Esplora altri prossimi eventi tecnologici aziendali e webinar Qui.
Fonte: www.artificialintelligence-news.com