本文深度分析了 Anthropic 最新模型 Opus 4.7 发布后遭遇的广泛批评,指出其性能下降、成本飙升等问题,并深入探讨了背后可能的原因——包括工程实现、系统提示词、多平台部署等综合因素,揭示了 Anthropic 在工程能力上的短板。
📝 详细摘要
文章详细报道了 Anthropic 最新旗舰模型 Claude Opus 4.7 发布后引发的用户强烈不满。新模型不仅被广泛认为在准确性、稳定性和编程能力上出现倒退,还因采用新的 tokenizer 导致成本大幅上升。作者通过引用大量社交媒体反馈、开发者实测数据(如一次成功率下降、成本翻倍)以及第三方基准测试,系统性地剖析了问题根源。文章核心观点认为,用户感知到的“模型变笨”并非单一模型参数问题,而是 Anthropic 工程能力不足的综合体现,涉及系统提示词(harness)设计缺陷、API 路由与过滤策略、多硬件平台(AWS Trainium、Google TPU、Nvidia GPU)部署带来的不确定性,以及“思考内容遮蔽”等产品策略调整。文章还对比了 OpenAI 的稳定策略,并提及谷歌正组建团队追赶 AI 编程市场,对 Anthropic 构成了潜在威胁。
💡 主要观点
- Opus 4.7 在性能与成本上双重“翻车”,引发开发者大规模不满。 用户实测数据显示,Opus 4.7 在编码任务的一次成功率从 4.6 的 84.7% 降至 75.4%,单次调用成本却从 0.112 美元升至 0.185 美元,出现了“花更多钱,体验更差”的普遍现象。
💬 文章金句
- “你就是被坑了。你这几个月每个月付 200 美元订阅费,结果拿到的东西却越来越少、越来越差。这根本不可接受。”
- “Claude Code 正在从一个谨慎的工程助手,变成一个更冲动、更容易误改的自动化系统。”
- “开发者感知到的‘Claude 变笨’,可能并非单一原因导致,而是多层问题叠加的结果。”
- “如果 Anthropic 真的想做出可靠的基础设施和软件,那就必须从底层开始彻底重想一遍。以现在的状态,我们无法信任 Anthropic 推出的这些东西。”
- “Opus 4.7 的 token 消耗确实离谱,但它真的很强。”
📊 文章信息
AI 初评:88
来源:InfoQ 中文
作者:InfoQ 中文
分类:人工智能
语言:中文
阅读时间:28 分钟
字数:6824
标签: Anthropic, Claude, Opus 4.7, AI 模型评测, 工程能力