跑分第一，推理暴跌！Claude Opus 4.7 上线 48 小时口碑崩了

📌 一句话摘要

本文报道了 Anthropic 最新模型 Claude Opus 4.7 发布后引发的巨大争议，其官方榜单表现优异，但在代码能力、推理质量、API 兼容性和成本效率上遭遇用户广泛批评，揭示了模型迭代中能力取舍与用户体验的尖锐矛盾。

📝 详细摘要

文章深度报道了 Anthropic 发布 Claude Opus 4.7 模型 48 小时后的社区反响。尽管该模型在 Artificial Analysis 的 Intelligence Index 上与 GPT-5.4、Gemini 3.1 Pro 并列全球第一，并在 GDPval-AA 等衡量真实工作能力的基准测试中大幅领先，但用户反馈却呈现两极撕裂。开发者社区集中批评其代码能力断崖式下滑、逻辑推理任务（如 NYT Connections Extended 测试）得分从 94.7% 暴跌至 41.0%、API 接口不兼容导致工作流中断、以及因新分词器导致 token 消耗增加 35% 而变相涨价。文章分析了争议背后的原因：Anthropic 旨在将 Claude 从“顺从的助手”改造为“更有主见的同事”，优化了真实工作能力和幻觉率，但代价是牺牲了部分场景的体验和兼容性，将迁移成本一次性推给了用户。

💡 主要观点

- Opus 4.7 呈现严重的“榜单表现”与“用户体验”背离。 模型在 GDPval-AA 等职业能力测试中登顶，幻觉率降低 25%，但在开发者依赖的代码生成和特定逻辑推理任务上出现显著退步，导致重度用户工作流受阻。

模型迭代的策略转变引发兼容性危机和隐性成本上涨。 Anthropic 改变了模型行为（更字面理解提示词）和 API 接口（thinking 参数变更），且新分词器使 token 消耗增加最高达 35%，在未提价的情况下变相增加了用户使用成本。

争议核心是 AI 工具“快速迭代”与“生产稳定性”的根本矛盾。 当 AI 从玩具变为生产力工具，用户无法承受每次升级都推倒重来的迁移成本。此次事件暴露了 AI 公司在追求技术指标领先时，对开发者生态和用户体验维护的不足。

💬 文章金句

- Opus 4.7 消耗更多 thinking token，所以我们已为所有订阅用户提高了速率限制，来补偿这一点。

Claude Opus 4.7 会以更字面、更明确的方式理解提示词。
省略只会降低延迟，不会降低成本。
从 4.6 升级到 4.7 之后，之前能稳定完成的编程任务开始频繁出错。
每一次模型升级，都有一批用户失去已经适应的工具。

📊 文章信息

AI 初评：88

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4055

标签： Claude Opus 4.7, Anthropic, 大语言模型, 模型评测, 开发者体验

阅读完整文章

跑分第一，推理暴跌！Claude Opus 4.7 上线 48 小时口碑崩了

🤖 問 AI