Tencent migliora il test dei modelli AI creativi con un nuovo punto di riferimento

 | Intelligenza-Artificiale

Tencent ha introdotto un nuovo punto di riferimento, Artifactsbench, che mira a risolvere i problemi attuali con il test dei modelli di AI creativi.

Hai mai chiesto a un'intelligenza artificiale di costruire qualcosa come una semplice pagina web o un grafico e ha ricevuto qualcosa che funziona ma ha una scarsa esperienza utente? I pulsanti potrebbero essere nel posto sbagliato, i colori potrebbero scontrarsi o le animazioni sembrano goffe. È un problema comune e mette in evidenza una grande sfida nel mondo dello sviluppo dell'IA: come si insegna a una macchina per avere buon gusto?

Per molto tempo, abbiamo testato i modelli di intelligenza artificiale sulla loro capacità per scrivere codice questo è funzionalmente corretto. Questi test potrebbero confermare che il codice sarebbe stato eseguito, ma erano completamente “ciechi per la fedeltà visiva e l'integrità interattiva che definiscono le moderne esperienze degli utenti”.

Questo è il problema esatto che Artefactsbench è stato progettato per risolvere. È meno un test e più un critico d'arte automatizzato per il codice generato dall'IA

Fallo bene, come un essere umano volevo Dovrebbe

Quindi, come funziona il benchmark AI di Tencent? In primo luogo, a un'intelligenza artificiale viene assegnato un compito creativo da un catalogo di oltre 1.800 sfide, dalla costruzione di visualizzazioni di dati e app Web alla realizzazione di mini-giochi interattivi.

Una volta che l'IA genera il codice, Artifactsbench si mette al lavoro. Costruisce automaticamente ed esegue il codice in un ambiente sicuro e sandbox.

Per vedere come si comporta l'applicazione, cattura una serie di screenshot nel tempo. Ciò consente di verificare cose come animazioni, modifiche allo stato dopo un clic del pulsante e altri feedback dinamici degli utenti.

Infine, consegna tutte queste prove – la richiesta originale, il codice dell'intelligenza artificiale e gli screenshot – a un LLM multimodale (MLLM), per agire come giudice.

Questo giudice MLLM non sta solo dando una vaga opinione e utilizza invece una lista di controllo dettagliata per task per segnare il risultato in dieci diverse metriche. Il punteggio include funzionalità, esperienza utente e persino qualità estetica. Ciò garantisce che il punteggio sia giusto, coerente e completo.

La grande domanda è: questo giudice automatizzato ha davvero un buon gusto? I risultati suggeriscono che lo fa.

Quando le classifiche di Artifactsbench sono state paragonate all'arena di Webdev, la piattaforma standard dorata in cui gli umani veri votano sulle migliori creazioni di intelligenza artificiale, si sono abbinati a una coerenza del 94,4%. Questo è un enorme salto dai vecchi parametri automatizzati, che hanno gestito solo circa il 69,4% di coerenza.

Inoltre, i giudizi del framework hanno mostrato oltre il 90% di accordo con gli sviluppatori umani professionisti.

Tencent valuta la creatività dei migliori modelli AI con il suo nuovo punto di riferimento

Quando Tencent ha messo più di 30 dei migliori modelli di AI al mondo durante il loro ritmo, la classifica stava rivelando. Mentre i migliori modelli commerciali di Google (Gemini-2.5-Pro) e antropico (Claude 4.0-Sonnet) hanno preso il comando, i test hanno portato alla luce un'intuizione affascinante.

Potresti pensare che un IA specializzato nella scrittura sarebbe il migliore in questi compiti. Ma il contrario era vero. La ricerca ha scoperto che “le capacità olistiche dei modelli generalisti spesso superano quelle di quelle specializzate”.

Un modello per lo scopo generale, Qwen-2.5-Istruct, in realtà ha battuto i suoi fratelli più specializzati, Qwen-2.5-coder (un modello specifico per codice) e Qwen2.5-VL (un modello specifico per la visione).

I ricercatori ritengono che ciò sia dovuto al fatto che la creazione di un'ottima applicazione visiva non riguarda solo la codifica o la comprensione visiva in isolamento e richiede una miscela di abilità.

“Ragionamento robusto, seguito di istruzioni sfumate e un implicito senso dell'estetica del design”, evidenziano i ricercatori come esempio di abilità vitali. Questi sono i tipi di abilità a tutto tondo e quasi umane che i migliori modelli generalisti stanno iniziando a svilupparsi.

Tencent spera che il suo benchmark Artifactsbench possa valutare in modo affidabile queste qualità e quindi misurare i progressi futuri nella capacità di AI di creare cose che non sono solo funzionali ma ciò che gli utenti vogliono effettivamente utilizzare.

Vedi anche: Tencent Hunyuan3D-Polygen: un modello per le risorse 3D “di livello artistico”

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber ​​Security & Cloud Expo.

Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.

Fonte: www.artificialintelligence-news.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *