ARC Prize 正式开源了迄今为止最全面的 ARC-AGI-3 人类基准数据集,引入了新的度量标准并改进了评分规则。
📝 详细摘要
这条推文转述了 ARC Prize 组织的一个重要动态:开源 ARC-AGI-3 人类基准数据集。该数据集是 ARC-AGI 系列中迄今为止最全面的人类测试研究,核心特点包括确保每个环境至少有 2 人成功解决、首次正式引入「学习效率」度量、以及采用中位数人类表现代替第二名作为评分基准,并将单关得分上限提升至 115%。
📊 文章信息
AI 初评:79
来源:Berryxia.AI(@berryxia)
作者:Berryxia.AI
分类:人工智能
语言:中文
阅读时间:1 分钟
字数:145
标签: ARC Prize, AGI, 基准测试, 数据集, AI 评测