本文报道了 Anthropic 最新模型 Claude Opus 4.7 发布后引发的巨大争议,其官方榜单表现优异,但在代码能力、推理质量、API 兼容性和成本效率上遭遇用户广泛批评,揭示了模型迭代中能力取舍与用户体验的尖锐矛盾。
📝 详细摘要
文章深度报道了 Anthropic 发布 Claude Opus 4.7 模型 48 小时后的社区反响。尽管该模型在 Artificial Analysis 的 Intelligence Index 上与 GPT-5.4、Gemini 3.1 Pro 并列全球第一,并在 GDPval-AA 等衡量真实工作能力的基准测试中大幅领先,但用户反馈却呈现两极撕裂。开发者社区集中批评其代码能力断崖式下滑、逻辑推理任务(如 NYT Connections Extended 测试)得分从 94.7% 暴跌至 41.0%、API 接口不兼容导致工作流中断、以及因新分词器导致 token 消耗增加 35% 而变相涨价。文章分析了争议背后的原因:Anthropic 旨在将 Claude 从“顺从的助手”改造为“更有主见的同事”,优化了真实工作能力和幻觉率,但代价是牺牲了部分场景的体验和兼容性,将迁移成本一次性推给了用户。
💡 主要观点
- Opus 4.7 呈现严重的“榜单表现”与“用户体验”背离。 模型在 GDPval-AA 等职业能力测试中登顶,幻觉率降低 25%,但在开发者依赖的代码生成和特定逻辑推理任务上出现显著退步,导致重度用户工作流受阻。
💬 文章金句
- Opus 4.7 消耗更多 thinking token,所以我们已为所有订阅用户提高了速率限制,来补偿这一点。
- Claude Opus 4.7 会以更字面、更明确的方式理解提示词。
- 省略只会降低延迟,不会降低成本。
- 从 4.6 升级到 4.7 之后,之前能稳定完成的编程任务开始频繁出错。
- 每一次模型升级,都有一批用户失去已经适应的工具。
📊 文章信息
AI 初评:88
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4055
标签: Claude Opus 4.7, Anthropic, 大语言模型, 模型评测, 开发者体验