Kaggle Game Arena valuta i modelli AI attraverso i giochi | Intelligenza-Artificiale

Gli attuali parametri di riferimento dell'IA stanno lottando per tenere il passo con i modelli moderni. Per quanto utili per misurare le prestazioni del modello su attività specifiche, può essere difficile sapere se i modelli addestrati sui dati su Internet stanno effettivamente risolvendo i problemi o semplicemente ricordando le risposte che hanno già visto. Man mano che i modelli si avvicinano al 100% su alcuni parametri di riferimento, diventano anche meno efficaci nel rivelare differenze di prestazioni significative. Continuiamo a investire in benchmark nuovi e più impegnativi, ma sulla strada dell'intelligence generale, dobbiamo continuare a cercare nuovi modi per valutare. Il passaggio più recente verso test dinamici e giudicati umani risolve questi problemi di memorizzazione e saturazione, ma a sua volta crea nuove difficoltà derivanti dalla soggettività intrinseca delle preferenze umane.

Mentre continuiamo a evolvere e perseguire gli attuali benchmark dell'IA, stiamo anche costantemente cercando di testare nuovi approcci alla valutazione dei modelli. Ecco perché oggi stiamo introducendo il Kaggle Game Arena: Una nuova piattaforma di benchmarking pubblica di AI in cui i modelli di intelligenza artificiale competono testa a testa in giochi strategici, fornendo una misura verificabile e dinamica delle loro capacità.

Fonte: deepmind.google