Una nuova revisione accademica suggerisce che i benchmark dell’intelligenza artificiale sono errati, il che potrebbe portare un’impresa a prendere decisioni ad alto rischio sulla base di dati “fuorvianti”.
I leader aziendali stanno impegnando budget a otto o nove cifre per programmi di intelligenza artificiale generativa. Queste decisioni in materia di approvvigionamento e sviluppo spesso si basano su classifiche e benchmark pubblici per confrontare le capacità dei modelli.
Uno studio su larga scala, “Measuring what Matters: Construct Validity in Large Language Model Benchmarks”, ha analizzato 445 benchmark LLM separati dalle principali conferenze sull’intelligenza artificiale. Un team di 29 revisori esperti ha scoperto che “quasi tutti gli articoli presentano punti deboli in almeno un’area”, minando le affermazioni che fanno sulla performance del modello.
Per i CTO e i Chief Data Officer, colpisce al cuore La governance dell’intelligenza artificiale e strategia di investimento. Se un benchmark che pretende di misurare la “sicurezza” o la “robustezza” in realtà non cattura tali qualità, un’organizzazione potrebbe implementare un modello che la espone a seri rischi finanziari e reputazionali.
Il problema della “validità di costrutto”.
I ricercatori si sono concentrati su un principio scientifico fondamentale noto come validità di costrutto. In termini semplici, questo è il grado in cui un test misura il concetto astratto che afferma di misurare.
Ad esempio, mentre l'”intelligenza” non può essere misurata direttamente, i test vengono creati per fungere da proxy misurabili. Il documento rileva che se un benchmark ha una validità di costrutto bassa, “allora un punteggio elevato può essere irrilevante o addirittura fuorviante”.
Questo problema è diffuso nella valutazione dell’IA. Dallo studio è emerso che i concetti chiave sono spesso “mal definiti o operativizzati”. Ciò può portare a “affermazioni scientifiche scarsamente supportate, ricerca mal indirizzata e implicazioni politiche non fondate su prove solide”.
Quando i fornitori competono per contratti aziendali evidenziando i loro punteggi migliori nei benchmark, i leader hanno effettivamente fiducia che questi punteggi siano un indicatore affidabile delle prestazioni aziendali nel mondo reale. Questa nuova ricerca suggerisce che la fiducia potrebbe essere malriposta.
Dove i benchmark dell’AI aziendale falliscono
La revisione ha individuato carenze sistemiche a tutti i livelli, dal modo in cui sono progettati i parametri di riferimento al modo in cui vengono riportati i loro risultati.
Definizioni vaghe o contestate: Non puoi misurare ciò che non puoi definire. Lo studio ha rilevato che anche quando venivano fornite le definizioni di un fenomeno, il 47,8% veniva “contestato”, affrontando concetti con “molte definizioni possibili o nessuna definizione chiara”.
Il documento utilizza l’“innocuità” – un obiettivo chiave nell’allineamento alla sicurezza aziendale – come esempio di un fenomeno che spesso manca di una definizione chiara e condivisa. Se due fornitori ottengono punteggi diversi in termini di “innocuità”, ciò potrebbe riflettere solo due definizioni diverse e arbitrarie del termine, non una reale differenza nella sicurezza del modello.
Mancanza di rigore statistico: Forse la cosa più allarmante per le organizzazioni basate sui dati è che la revisione ha rilevato che solo il 16% dei 445 benchmark utilizzava stime di incertezza o test statistici per confrontare i risultati dei modelli.
Senza analisi statistiche, è impossibile sapere se un vantaggio del 2% per il Modello A rispetto al Modello B sia una reale differenza di capacità o una semplice casualità. Le decisioni aziendali sono guidate da numeri che non supererebbero una revisione scientifica o di business intelligence di base.
Contaminazione e memorizzazione dei dati: Molti benchmark, soprattutto quelli relativi al ragionamento (come l’ampiamente utilizzato GSM8K), vengono indeboliti quando le relative domande e risposte compaiono nei dati di pre-addestramento del modello.
Quando ciò accade, il modello non ragiona per trovare la risposta; lo sta semplicemente memorizzando. Un punteggio elevato può indicare una buona memoria, non la capacità di ragionamento avanzata di cui un’azienda ha effettivamente bisogno per un compito complesso. Il documento avverte che ciò “mina la validità dei risultati” e raccomanda di inserire controlli di contaminazione direttamente nel benchmark.
Set di dati non rappresentativi: Lo studio ha rilevato che il 27% dei benchmark utilizzava un “campionamento di convenienza”, come il riutilizzo dei dati di benchmark esistenti o di esami umani. Questi dati spesso non sono rappresentativi del fenomeno del mondo reale.
Ad esempio, gli autori notano che riutilizzare le domande di un “esame senza calcolatrice” significa che i problemi utilizzano numeri scelti per essere facili per l’aritmetica di base. Un modello potrebbe ottenere un buon punteggio in questo test, ma questo punteggio “non predirebbe le prestazioni su numeri più grandi, dove gli LLM faticano”. Ciò crea un punto cieco critico, nascondendo una debolezza nota del modello.
Dalle metriche pubbliche alla validazione interna
Per i leader aziendali, lo studio costituisce un forte avvertimento: i benchmark pubblici sull’intelligenza artificiale non sostituiscono la valutazione interna e specifica del settore. Un punteggio elevato in una classifica pubblica non è garanzia di idoneità per uno scopo aziendale specifico.
Isabella Grandi, Direttore Data Strategy & Governance, at NTT DATA UK&Iha commentato: “Un unico benchmark potrebbe non essere il modo giusto per catturare la complessità dei sistemi di intelligenza artificiale, e aspettarsi che lo faccia rischia di ridurre il progresso a un gioco di numeri piuttosto che a una misura di responsabilità nel mondo reale. Ciò che conta di più è una valutazione coerente rispetto a principi chiari che garantiscono che la tecnologia sia al servizio delle persone oltre che del progresso.
“Buona metodologia – come stabilito da ISO/IEC 42001:2023 – riflette questo equilibrio attraverso cinque principi fondamentali: responsabilità, equità, trasparenza, sicurezza e ricorso. La responsabilità stabilisce la proprietà e la responsabilità per qualsiasi sistema di intelligenza artificiale utilizzato. La trasparenza e l’equità guidano le decisioni verso risultati etici e spiegabili. La sicurezza e la privacy non sono negoziabili, prevengono gli abusi e rafforzano la fiducia del pubblico. Il ricorso e la contestabilità forniscono un meccanismo vitale per la supervisione, garantendo che le persone possano contestare e correggere i risultati quando necessario.
“Il vero progresso nel campo dell’intelligenza artificiale dipende dalla collaborazione che riunisce la visione del governo, la curiosità del mondo accademico e la spinta pratica dell’industria. Quando le partnership sono sostenute da un dialogo aperto e prendono piede gli standard condivisi, si crea la trasparenza necessaria affinché le persone possano infondere fiducia nei sistemi di intelligenza artificiale. L’innovazione responsabile farà sempre affidamento sulla cooperazione che rafforza la supervisione mantenendo viva l’ambizione.”
Le otto raccomandazioni del documento forniscono una lista di controllo pratica per qualsiasi azienda che desideri costruire i propri parametri di riferimento e valutazioni interni sull’intelligenza artificiale, allineandosi con l’approccio basato sui principi.
- Definisci il tuo fenomeno: Prima di testare i modelli, le organizzazioni devono innanzitutto creare una “definizione precisa e operativa del fenomeno da misurare”. Che cosa significa una risposta “utile” nel contesto del vostro servizio clienti? Cosa significa “accurato” per i tuoi report finanziari?
- Costruisci un set di dati rappresentativo: Il benchmark più prezioso è quello costruito a partire dai tuoi dati. Il documento esorta gli sviluppatori a “costruire un set di dati rappresentativo per l’attività”. Ciò significa utilizzare elementi di attività che riflettono gli scenari, i formati e le sfide del mondo reale che i tuoi dipendenti e clienti devono affrontare.
- Condurre l’analisi degli errori: Andare oltre il punteggio finale. Il rapporto raccomanda ai team di “condurre un’analisi qualitativa e quantitativa delle modalità di fallimento comuni”. Analizzare il motivo per cui un modello fallisce è più istruttivo che conoscerne semplicemente il punteggio. Se i suoi fallimenti riguardano tutti argomenti oscuri e di bassa priorità, potrebbe essere accettabile; se fallisce nei casi d’uso più comuni e di alto valore, quel singolo punteggio diventa irrilevante.
- Giustificare la validità: Infine, i team devono “giustificare la rilevanza del benchmark per il fenomeno con applicazioni nel mondo reale”. Ogni valutazione dovrebbe essere accompagnata da una chiara motivazione che spieghi perché questo test specifico è un valido indicatore del valore aziendale.
La corsa all’implementazione dell’intelligenza artificiale generativa sta spingendo le organizzazioni a muoversi più velocemente di quanto i loro quadri di governance possano tenere il passo. Questo rapporto mostra che gli stessi strumenti utilizzati per misurare i progressi sono spesso imperfetti. L’unico percorso affidabile da seguire è smettere di fidarsi dei benchmark generici dell’intelligenza artificiale e iniziare a “misurare ciò che conta” per la propria azienda.
Vedi anche: OpenAI scommette 600 miliardi di dollari sull’intelligenza artificiale nel cloud tra AWS, Oracle e Microsoft

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici tra cui Fiera della sicurezza informaticaclic Qui per ulteriori informazioni
AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.
Fonte: www.artificialintelligence-news.com
