Opus 4.7 被骂翻、Claude Code 还把模型越带越笨：Anthropic 的野心，输给了拉胯工程

📌 一句话摘要

本文深度分析了 Anthropic 最新模型 Opus 4.7 发布后遭遇的广泛批评，指出其性能下降、成本飙升等问题，并深入探讨了背后可能的原因——包括工程实现、系统提示词、多平台部署等综合因素，揭示了 Anthropic 在工程能力上的短板。

📝 详细摘要

文章详细报道了 Anthropic 最新旗舰模型 Claude Opus 4.7 发布后引发的用户强烈不满。新模型不仅被广泛认为在准确性、稳定性和编程能力上出现倒退，还因采用新的 tokenizer 导致成本大幅上升。作者通过引用大量社交媒体反馈、开发者实测数据（如一次成功率下降、成本翻倍）以及第三方基准测试，系统性地剖析了问题根源。文章核心观点认为，用户感知到的“模型变笨”并非单一模型参数问题，而是 Anthropic 工程能力不足的综合体现，涉及系统提示词（harness）设计缺陷、API 路由与过滤策略、多硬件平台（AWS Trainium、Google TPU、Nvidia GPU）部署带来的不确定性，以及“思考内容遮蔽”等产品策略调整。文章还对比了 OpenAI 的稳定策略，并提及谷歌正组建团队追赶 AI 编程市场，对 Anthropic 构成了潜在威胁。

💡 主要观点

- Opus 4.7 在性能与成本上双重“翻车”，引发开发者大规模不满。 用户实测数据显示，Opus 4.7 在编码任务的一次成功率从 4.6 的 84.7% 降至 75.4%，单次调用成本却从 0.112 美元升至 0.185 美元，出现了“花更多钱，体验更差”的普遍现象。

“模型变笨”的本质可能是复杂的工程问题叠加，而非单纯的模型能力退化。 问题根源可能在于系统提示词（harness）设计不当污染上下文、新的 tokenizer 放大 token 消耗导致“上下文腐烂”、多硬件平台部署引入的不稳定性，以及“思考内容遮蔽”策略影响了长会话的推理深度。

Anthropic 的工程文化与实现能力被指未能支撑其产品野心。 与 OpenAI 强调发布后稳定不同，Anthropic 频繁的接口层改动、不透明的策略调整以及跨平台部署的复杂性，暴露了其工程基础设施的脆弱性，直接损害了用户体验和信任。

AI 编程助手市场竞争加剧，谷歌等巨头正全力追赶。 在 Anthropic 陷入争议之际，谷歌已成立由高层直接领导的突击队，旨在弥补其 AI 智能体在执行能力上的差距，意图争夺被 Anthropic 和 OpenAI 占据的 AI 编程市场。

💬 文章金句

- “你就是被坑了。你这几个月每个月付 200 美元订阅费，结果拿到的东西却越来越少、越来越差。这根本不可接受。”

“Claude Code 正在从一个谨慎的工程助手，变成一个更冲动、更容易误改的自动化系统。”
“开发者感知到的‘Claude 变笨’，可能并非单一原因导致，而是多层问题叠加的结果。”
“如果 Anthropic 真的想做出可靠的基础设施和软件，那就必须从底层开始彻底重想一遍。以现在的状态，我们无法信任 Anthropic 推出的这些东西。”
“Opus 4.7 的 token 消耗确实离谱，但它真的很强。”

📊 文章信息

AI 初评：88

来源：InfoQ 中文

作者：InfoQ 中文

分类：人工智能

语言：中文

阅读时间：28 分钟

字数：6824

标签： Anthropic, Claude, Opus 4.7, AI 模型评测, 工程能力

阅读完整文章

Opus 4.7 被骂翻、Claude Code 还把模型越带越笨：Anthropic 的野心，输给了拉胯工程

🤖 問 AI