Kaggle Game Arena valuta i modelli di intelligenza artificiale attraverso i giochi | Intelligenza-Artificiale

Gli attuali benchmark dell’intelligenza artificiale faticano a tenere il passo con i modelli moderni. Per quanto siano utili per misurare le prestazioni del modello su compiti specifici, può essere difficile sapere se i modelli addestrati sui dati Internet stanno effettivamente risolvendo problemi o semplicemente ricordando le risposte che hanno già visto. Poiché i modelli si avvicinano al 100% su determinati benchmark, diventano anche meno efficaci nel rivelare differenze significative nelle prestazioni. Continuiamo a investire in benchmark nuovi e più impegnativi, ma nel percorso verso l’intelligenza generale dobbiamo continuare a cercare nuovi modi di valutare. Il passaggio più recente verso test dinamici e giudicati dall’uomo risolve questi problemi di memorizzazione e saturazione, ma a sua volta crea nuove difficoltà derivanti dalla soggettività intrinseca delle preferenze umane.

Mentre continuiamo a evolverci e a perseguire gli attuali benchmark di intelligenza artificiale, cerchiamo anche costantemente di testare nuovi approcci alla valutazione dei modelli. Ecco perché oggi presentiamo il Arena di gioco Kaggle: una nuova piattaforma pubblica di benchmarking dell’intelligenza artificiale in cui i modelli di intelligenza artificiale competono testa a testa in giochi strategici, fornendo una misura verificabile e dinamica delle loro capacità.

Fonte: deepmind.google