← 回總覽

跑分第一,推理暴跌!Claude Opus 4.7 上线 48 小时口碑崩了

📅 2026-04-18 18:15 新智元 人工智能 2 分鐘 1395 字 評分: 88
Claude Opus 4.7 Anthropic 大语言模型 模型评测 开发者体验
📌 一句话摘要 本文报道了 Anthropic 最新模型 Claude Opus 4.7 发布后引发的巨大争议,其官方榜单表现优异,但在代码能力、推理质量、API 兼容性和成本效率上遭遇用户广泛批评,揭示了模型迭代中能力取舍与用户体验的尖锐矛盾。 📝 详细摘要 文章深度报道了 Anthropic 发布 Claude Opus 4.7 模型 48 小时后的社区反响。尽管该模型在 Artificial Analysis 的 Intelligence Index 上与 GPT-5.4、Gemini 3.1 Pro 并列全球第一,并在 GDPval-AA 等衡量真实工作能力的基准测试中大幅领先,但

📌 一句话摘要

本文报道了 Anthropic 最新模型 Claude Opus 4.7 发布后引发的巨大争议,其官方榜单表现优异,但在代码能力、推理质量、API 兼容性和成本效率上遭遇用户广泛批评,揭示了模型迭代中能力取舍与用户体验的尖锐矛盾。

📝 详细摘要

文章深度报道了 Anthropic 发布 Claude Opus 4.7 模型 48 小时后的社区反响。尽管该模型在 Artificial Analysis 的 Intelligence Index 上与 GPT-5.4、Gemini 3.1 Pro 并列全球第一,并在 GDPval-AA 等衡量真实工作能力的基准测试中大幅领先,但用户反馈却呈现两极撕裂。开发者社区集中批评其代码能力断崖式下滑、逻辑推理任务(如 NYT Connections Extended 测试)得分从 94.7% 暴跌至 41.0%、API 接口不兼容导致工作流中断、以及因新分词器导致 token 消耗增加 35% 而变相涨价。文章分析了争议背后的原因:Anthropic 旨在将 Claude 从“顺从的助手”改造为“更有主见的同事”,优化了真实工作能力和幻觉率,但代价是牺牲了部分场景的体验和兼容性,将迁移成本一次性推给了用户。

💡 主要观点

- Opus 4.7 呈现严重的“榜单表现”与“用户体验”背离。 模型在 GDPval-AA 等职业能力测试中登顶,幻觉率降低 25%,但在开发者依赖的代码生成和特定逻辑推理任务上出现显著退步,导致重度用户工作流受阻。

模型迭代的策略转变引发兼容性危机和隐性成本上涨。 Anthropic 改变了模型行为(更字面理解提示词)和 API 接口(thinking 参数变更),且新分词器使 token 消耗增加最高达 35%,在未提价的情况下变相增加了用户使用成本。
争议核心是 AI 工具“快速迭代”与“生产稳定性”的根本矛盾。 当 AI 从玩具变为生产力工具,用户无法承受每次升级都推倒重来的迁移成本。此次事件暴露了 AI 公司在追求技术指标领先时,对开发者生态和用户体验维护的不足。

💬 文章金句

- Opus 4.7 消耗更多 thinking token,所以我们已为所有订阅用户提高了速率限制,来补偿这一点。

  • Claude Opus 4.7 会以更字面、更明确的方式理解提示词。
  • 省略只会降低延迟,不会降低成本。
  • 从 4.6 升级到 4.7 之后,之前能稳定完成的编程任务开始频繁出错。
  • 每一次模型升级,都有一批用户失去已经适应的工具。

📊 文章信息

AI 初评:88

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4055

标签: Claude Opus 4.7, Anthropic, 大语言模型, 模型评测, 开发者体验

阅读完整文章

查看原文 → 發佈: 2026-04-18 18:15:00 收錄: 2026-04-19 18:00:47

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。