
Premio ARC ha lanciato il benchmark hardcore ARC-AGI-2, accompagnato dall'annuncio della loro competizione del 2025 con $ 1 milione in premi.
Man mano che l'intelligenza artificiale progredisce dall'esecuzione di compiti ristretti alla dimostrazione di intelligenza generale e adattiva, le sfide ARC-AGI-2 mirano a scoprire lacune di capacità e guidare attivamente l'innovazione.
“I buoni benchmark AGI agiscono come utili indicatori di progresso. Migliori benchmark AGI discernano chiaramente le capacità. I migliori benchmark AGI fanno tutto questo e ispirano attivamente la ricerca e la guida dell'innovazione”, afferma il team del premio ARC.
Arc-AGI-2 si stabilisce per ottenere la categoria “migliore”.
Oltre la memorizzazione
Fin dalla sua istituzione nel 2019, ARC Prize è stato una “stella nord” per i ricercatori che si sforzano di AGI creando benchmark duraturi.
I parametri di riferimento come l'ARC-AGI-1 si sono appoggiati alla misurazione dell'intelligenza fluida (cioè la capacità di adattare l'apprendimento a nuovi compiti invisibili.) Ha rappresentato un chiaro allontanamento dai set di dati che premiano la sola memorizzazione.
La missione del premio ARC è anche lungimirante, con l'obiettivo di accelerare le scadenze per le scoperte scientifiche. I suoi benchmark sono progettati non solo per misurare i progressi ma per ispirare nuove idee.
I ricercatori hanno osservato uno spostamento critico con il debutto dell'O3 di Openi alla fine del 2024, valutato utilizzando l'ARC-AGI-1. Combinando i modelli di grandi dimensioni basati sull'apprendimento profondo (LLM) con i motori di sintesi di ragionamento, O3 ha segnato una svolta in cui l'IA è passata oltre la memorizzazione del rote.
Tuttavia, nonostante i progressi, sistemi come O3 rimangono inefficienti e richiedono una significativa supervisione umana durante i processi di formazione. Per sfidare questi sistemi per la vera adattabilità ed efficienza, l'ARC Prize ha introdotto l'ARC-AGI-2.
Arc-AGI-2: chiusura del gap umano-macchina
Il benchmark ARC-AGI-2 è più duro per l'IA, ma mantiene la sua accessibilità per gli umani. Mentre i sistemi di ragionamento di Frontier AI continuano a segnare in percentuali a una cifra su ARC-AGI-2, gli umani possono risolvere ogni attività in sotto due tentativi.
Quindi, cosa distingue Arc-Agi? La sua filosofia di design sceglie compiti “relativamente facili per gli umani, ma difficili o impossibili, per l'IA”.
Il benchmark include set di dati con visibilità variabile e le seguenti caratteristiche:
- Interpretazione simbolica: L'IA fa fatica ad assegnare un significato semantico ai simboli, concentrandosi invece su confronti superficiali come i controlli di simmetria.
- Ragionamento compositivo: L'intelligenza artificiale vacilla quando deve applicare più regole di interazione contemporaneamente.
- Applicazione della regola contestuale: I sistemi non riescono ad applicare regole in modo diverso in base a contesti complessi, spesso fissando su motivi a livello di superficie.
La maggior parte dei parametri di riferimento esistenti si concentrano sulle capacità sovrumane, testando abilità avanzate e specializzate su scale irraggiungibili per la maggior parte delle persone.
Arc-Agi lancia la sceneggiatura ed evidenzia ciò che l'IA non può ancora fare; In particolare l'adattabilità che definisce l'intelligenza umana. Quando il divario tra compiti che sono facili per gli umani ma difficili per l'IA alla fine raggiunge lo zero, si può dichiarare AGI.
Tuttavia, il raggiungimento di AGI non è limitato alla capacità di risolvere i compiti; L'efficienza – il costo e le risorse richieste per trovare soluzioni – stanno emergendo come un fattore di definizione cruciale.
Il ruolo dell'efficienza
La misurazione delle prestazioni in base al costo per attività è essenziale per valutare l'intelligenza non solo la capacità di risoluzione dei problemi, ma la capacità di farlo in modo efficiente.
Esempi del mondo reale stanno già mostrando lacune di efficienza tra esseri umani e sistemi di AI di frontiera:
- Efficienza del pannello umano: Passa compiti ARC-AGI-2 con una precisione al 100% a $ 17/attività.
- Openai O3: Le prime stime suggeriscono un tasso di successo del 4% a $ 200 per l'attività.
Queste metriche sottolineano le disparità di adattabilità e consumo di risorse tra umani e AI. Il premio ARC si è impegnato a riferire sull'efficienza insieme ai punteggi tra le classifiche.
L'attenzione all'efficienza impedisce a soluzioni di forza bruta che vengano considerate “vera intelligenza”.
L'intelligence, secondo il premio ARC, comprende la ricerca di soluzioni con risorse minime, una qualità distintamente umana ma ancora sfuggente per l'IA.
Premio ARC 2025
Il premio ARC 2025 viene lanciato su Kaggle Questa settimana, promettendo $ 1 milione in premi totali e mettendo in mostra una classifica dal vivo per le scoperte open source. Il concorso mira a guidare i progressi verso sistemi che possono affrontare in modo efficiente le sfide ARC-AGI-2.
Tra le categorie di premi, che sono aumentate dai totali del 2024, ci sono:
- Grande premio: $ 700.000 per aver raggiunto il successo dell'85% entro i limiti di efficienza di Kaggle.
- Premio Top Score: $ 75.000 per la presentazione con il punteggio più alto.
- Premio di carta: $ 50.000 per idee trasformative che contribuiscono alla risoluzione di compiti AGI.
- Premi aggiuntivi: $ 175.000, con dettagli in attesa di annunci durante la competizione.
Questi incentivi garantiscono progressi equa e significativi nel promuovere la collaborazione tra ricercatori, laboratori e team indipendenti.
L'anno scorso, il premio ARC 2024 ha visto 1.500 team di concorrenti, con conseguenti 40 articoli di acclamata influenza del settore. Il aumento della posta in gioco di quest'anno mira a coltivare un successo ancora maggiore.
Il premio ARC crede che il progresso dipenda da nuove idee piuttosto che semplicemente ridimensionando i sistemi esistenti. La prossima svolta in efficienti sistemi generali potrebbe non provenire dagli attuali giganti della tecnologia ma da ricercatori audaci e creativi che abbracciano la complessità e la sperimentazione curiosa.
(Credito immagine: Premio ARC)
Vedi anche: DeepSeek V3-0324 TOP Modelli di AI non ragionato in open source prima

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.
Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.
Fonte: www.artificialintelligence-news.com