← 回總覽

这套题,GPT-5.5、Opus 4.7 加起来没考到「1 分」,人类却拿了满分 100?

📅 2026-05-02 13:31 机器之心 人工智能 2 分鐘 1646 字 評分: 87
ARC-AGI-3 GPT-5.5 Claude Opus 4.7 AGI AI 基准测试
📌 一句话摘要 ARC-AGI-3 基准测试显示,GPT-5.5 和 Claude Opus 4.7 在全新逻辑任务上的得分均低于 1%,揭示了当前顶尖 AI 模型在抽象推理和适应新环境方面的根本性缺陷。 📝 详细摘要 文章报道了 ARC Prize 官方发布的最新分析报告,指出 OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 在 ARC-AGI-3 基准测试中表现极差,得分分别为 0.43% 和 0.18%,远低于人类 100% 的满分。ARC-AGI-3 由 Keras 之父 François Chollet 创立,旨在测试 AI 系统在全

📌 一句话摘要

ARC-AGI-3 基准测试显示,GPT-5.5 和 Claude Opus 4.7 在全新逻辑任务上的得分均低于 1%,揭示了当前顶尖 AI 模型在抽象推理和适应新环境方面的根本性缺陷。

📝 详细摘要

文章报道了 ARC Prize 官方发布的最新分析报告,指出 OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 在 ARC-AGI-3 基准测试中表现极差,得分分别为 0.43% 和 0.18%,远低于人类 100% 的满分。ARC-AGI-3 由 Keras 之父 François Chollet 创立,旨在测试 AI 系统在全新环境中的适应能力和抽象推理能力。研究团队通过分析 160 组运行轨迹,总结出三大核心失败模式:模型能理解局部反馈但无法构建全局世界模型、被训练数据中的已知游戏规则「绑架」、以及侥幸通关却未真正理解底层机制。文章还对比了 GPT-5.5 和 Opus 4.7 的失败差异,前者像「思维发散的理论家」,后者像「过度自信的直觉主义者」,两者在「压缩」能力上的不同导致了不同的失败路径。

💡 主要观点

- GPT-5.5 和 Claude Opus 4.7 在 ARC-AGI-3 测试中得分均低于 1%,远逊于人类。 该测试由 135 个全新环境组成,要求 AI 在无先验知识的情况下探索、推理和适应,人类可轻松获得满分,而顶尖模型几乎完全失败。

模型失败的核心原因之一是「虚假的世界模型」:能理解局部反馈但无法整合成全局规则。 模型可以识别单个操作的效果,但无法将这些碎片化认知转化为完整的逻辑策略,缺乏构建和运用世界模型的能力。
模型被训练数据「绑架」,将新任务误判为已知游戏,导致抽象思维受限。 模型反复尝试将陌生机制映射到「俄罗斯方块」「推箱子」等已知游戏规则上,这种字面类比反而阻碍了对新环境的正确理解。
「通关不等于理解」:模型可能侥幸过关,但并未掌握底层机制。 模型在某一关卡的成功可能源于对机制的误读,这种「局部胜利」会掩盖其认知缺陷,并在后续关卡中放大错误。
GPT-5.5 和 Opus 4.7 的失败模式截然不同,反映了不同的「压缩」能力缺陷。 Opus 4.7 倾向于过度自信地将观察压缩成错误理论,而 GPT-5.5 则难以完成压缩,始终停留在分散的可能性中。

💬 文章金句

- 即便拥有千亿级参数和近乎无限的算力,这些模型在处理「全新逻辑环境」时的表现,甚至不如一个 6 岁的儿童。

  • 模型失败不是因为它们「看不见」,而在于无法把观察的事物整合成一个完整的世界模型。
  • 这些来自训练数据的字面类比反而「绑架」了模型的动作选择。
  • 早期关卡的推进并不能可靠反映模型是否真正理解了任务。
  • Claude Opus 4.7 有点像「过度自信的直觉主义者」,GPT-5.5 则像「思维发散的理论家」。

📊 文章信息

AI 初评:87

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3226

标签: ARC-AGI-3, GPT-5.5, Claude Opus 4.7, AGI, AI 基准测试

阅读完整文章

查看原文 → 發佈: 2026-05-02 13:31:00 收錄: 2026-05-02 18:00:04

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。