这套题，GPT-5.5、Opus 4.7 加起来没考到「1 分」，人类却拿了满分 100？

📌 一句话摘要

ARC-AGI-3 基准测试显示，GPT-5.5 和 Claude Opus 4.7 在全新逻辑任务上的得分均低于 1%，揭示了当前顶尖 AI 模型在抽象推理和适应新环境方面的根本性缺陷。

📝 详细摘要

文章报道了 ARC Prize 官方发布的最新分析报告，指出 OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 在 ARC-AGI-3 基准测试中表现极差，得分分别为 0.43% 和 0.18%，远低于人类 100% 的满分。ARC-AGI-3 由 Keras 之父 François Chollet 创立，旨在测试 AI 系统在全新环境中的适应能力和抽象推理能力。研究团队通过分析 160 组运行轨迹，总结出三大核心失败模式：模型能理解局部反馈但无法构建全局世界模型、被训练数据中的已知游戏规则「绑架」、以及侥幸通关却未真正理解底层机制。文章还对比了 GPT-5.5 和 Opus 4.7 的失败差异，前者像「思维发散的理论家」，后者像「过度自信的直觉主义者」，两者在「压缩」能力上的不同导致了不同的失败路径。

💡 主要观点

- GPT-5.5 和 Claude Opus 4.7 在 ARC-AGI-3 测试中得分均低于 1%，远逊于人类。 该测试由 135 个全新环境组成，要求 AI 在无先验知识的情况下探索、推理和适应，人类可轻松获得满分，而顶尖模型几乎完全失败。

模型失败的核心原因之一是「虚假的世界模型」：能理解局部反馈但无法整合成全局规则。 模型可以识别单个操作的效果，但无法将这些碎片化认知转化为完整的逻辑策略，缺乏构建和运用世界模型的能力。

模型被训练数据「绑架」，将新任务误判为已知游戏，导致抽象思维受限。 模型反复尝试将陌生机制映射到「俄罗斯方块」「推箱子」等已知游戏规则上，这种字面类比反而阻碍了对新环境的正确理解。

「通关不等于理解」：模型可能侥幸过关，但并未掌握底层机制。 模型在某一关卡的成功可能源于对机制的误读，这种「局部胜利」会掩盖其认知缺陷，并在后续关卡中放大错误。

GPT-5.5 和 Opus 4.7 的失败模式截然不同，反映了不同的「压缩」能力缺陷。 Opus 4.7 倾向于过度自信地将观察压缩成错误理论，而 GPT-5.5 则难以完成压缩，始终停留在分散的可能性中。

💬 文章金句

- 即便拥有千亿级参数和近乎无限的算力，这些模型在处理「全新逻辑环境」时的表现，甚至不如一个 6 岁的儿童。

模型失败不是因为它们「看不见」，而在于无法把观察的事物整合成一个完整的世界模型。
这些来自训练数据的字面类比反而「绑架」了模型的动作选择。
早期关卡的推进并不能可靠反映模型是否真正理解了任务。
Claude Opus 4.7 有点像「过度自信的直觉主义者」，GPT-5.5 则像「思维发散的理论家」。

📊 文章信息

AI 初评：87

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3226

标签： ARC-AGI-3, GPT-5.5, Claude Opus 4.7, AGI, AI 基准测试

阅读完整文章

这套题，GPT-5.5、Opus 4.7 加起来没考到「1 分」，人类却拿了满分 100？

🤖 問 AI