
前沿资讯
1742880823更新
0
在通用人工智能的探索道路中,可靠的衡量指标与挑战机制一直是推动研究前进的关键动力。ARC-AGI 1自2019年登场后,促使AI系统突破单纯的记忆模式,展现出推理和合成等关键能力,成为衡量AGI发展的关键节点。在2024年末,OpenAI的o3系统借助ARC-AGI 1有力地证明了其在结合深度学习大语言模型与推理合成引擎方面的显著进展。
ARC-AGI-2基准测试不仅是对ARC-AGI 1的传承,更是在难度和挑战维度上的全面升级。ARC Prize基金会指出,ARC-AGI基准测试的独特之处在于其关注的并非AI的超人能力或专业技能,而是侧重于挖掘那些对人类而言相对轻松,但对AI却极具挑战性的任务。
通过这种方式,能够更加清晰地呈现出人类与AI在智能水平上的差距,进而引导研究人员聚焦于提升AI系统高效获取新技能的通用智能能力。目前,纯大语言模型在ARC-AGI-2上的得分仍为0%,而顶尖推理系统的得分也仅停留在个位数百分比(不足5%),凸显出这一基准测试的高难度与挑战性。
从数据集来看,ARC-AGI 2包含了1000个任务的训练集以及多个各有120个任务的评估集,且在任务质量上较ARC-AGI 1有显著优化,包括扩充评估集任务数量、校准难度以及设计全新挑战任务等。同时,基金会还公布了人类和现有AI系统在ARC-AGI 1和ARC-AGI 2上的得分对比,为后续的研究和竞赛提供了重要参考,与之配套的ARC Prize 2025竞赛也将在本周于Kaggle平台正式上线。
ARC Prize 2025竞赛基于ARC-AGI-2数据集展开,参赛者的主要目标是在Kaggle效率限制范围内,在ARC-AGI-2私有评估数据集上达到85%的准确率。该竞赛设置了丰富且诱人的奖项,总奖金高达100万美元。
此次竞赛在多个方面进行了重要变革。数据集方面,ARC-AGI-2取代了ARC-AGI-1任务集,为参赛者带来了新的挑战。排行榜报告形式也有所更新,Kaggle实时竞赛排行榜将报告半私有评估集的分数,而最终结果则在竞赛结束后一次性报告私有评估集分数。在开源规定上更加严格,要求团队在获得官方私有评估集分数之前开源其解决方案,进一步推动开源精神的落实。计算资源较2024年翻倍(1.4v4s),目前价值约50美元,为参赛者提供了更强大的技术支持。同时,采取了更多过拟合预防措施,包括对Kaggle上的分数报告进行额外更改,以减少数据挖掘和过拟合现象,激励参赛者取得概念性进展。
ARC Prize 2025竞赛的关键时间节点明确。2025年3月竞赛正式启动,2025年11月为最终提交截止日期,2025年11月9日是论文提交截止日期,2025年12月5日将公布获奖者。
奖项设置方面,大奖金额高达70万美元,较2024年增加了10万美元。当第一个符合条件的解决方案在私有评估集上达到至少85%的分数,且效率约为每个任务2.5美元时,大奖将解锁。在年度竞赛期间,得分至少达到85%的排名最高的团队(最多5个)将获得大奖,如果无人达到标准,大奖将延续到下一年。此外,还设有2025年论文奖,总金额为7.5万美元,授予根据ARC-AGI上的强劲表现,最能促进人们对如何实现高性能理解的已提交论文,其中第一名5万美元,第二名2万美元,第三名5000美元。2025年最高分数奖为5万美元,授予竞赛期间得分最高的提交作品,前五名分别获得不同金额奖励。
在规则方面,ARC Prize 2025的官方规则将在竞赛上线时在Kaggle上公布。所有参赛作品必须遵循严格的开源许可证规定,提交者编写的所有代码和方法需在宽松的公共领域许可证(如CC0或MIT-0)下开源,非提交者编写的第三方代码或方法也至少要在允许公开共享的开源许可证(如Apache 2.0、GPLv3)下可用。
ARC Prize 2025竞赛秉持着开源推动AGI发展的精神,鼓励所有领先的参赛者开源其解决方案。通过提供丰厚的奖金、专用的基础设施和公众认可,激励参与者公开分享可重复方法,以实现集体进步,确保AGI造福全人类。
参考资料:https://arcprize.org/