ARC-AGI-3 基准测试显示,GPT-5.5 和 Claude Opus 4.7 在全新逻辑任务上的得分均低于 1%,揭示了当前顶尖 AI 模型在抽象推理和适应新环境方面的根本性缺陷。
📝 详细摘要
文章报道了 ARC Prize 官方发布的最新分析报告,指出 OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 在 ARC-AGI-3 基准测试中表现极差,得分分别为 0.43% 和 0.18%,远低于人类 100% 的满分。ARC-AGI-3 由 Keras 之父 François Chollet 创立,旨在测试 AI 系统在全新环境中的适应能力和抽象推理能力。研究团队通过分析 160 组运行轨迹,总结出三大核心失败模式:模型能理解局部反馈但无法构建全局世界模型、被训练数据中的已知游戏规则「绑架」、以及侥幸通关却未真正理解底层机制。文章还对比了 GPT-5.5 和 Opus 4.7 的失败差异,前者像「思维发散的理论家」,后者像「过度自信的直觉主义者」,两者在「压缩」能力上的不同导致了不同的失败路径。
💡 主要观点
- GPT-5.5 和 Claude Opus 4.7 在 ARC-AGI-3 测试中得分均低于 1%,远逊于人类。 该测试由 135 个全新环境组成,要求 AI 在无先验知识的情况下探索、推理和适应,人类可轻松获得满分,而顶尖模型几乎完全失败。
💬 文章金句
- 即便拥有千亿级参数和近乎无限的算力,这些模型在处理「全新逻辑环境」时的表现,甚至不如一个 6 岁的儿童。
- 模型失败不是因为它们「看不见」,而在于无法把观察的事物整合成一个完整的世界模型。
- 这些来自训练数据的字面类比反而「绑架」了模型的动作选择。
- 早期关卡的推进并不能可靠反映模型是否真正理解了任务。
- Claude Opus 4.7 有点像「过度自信的直觉主义者」,GPT-5.5 则像「思维发散的理论家」。
📊 文章信息
AI 初评:87
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3226
标签: ARC-AGI-3, GPT-5.5, Claude Opus 4.7, AGI, AI 基准测试