Claude Opus 4.7 发布：不是最强，但更「靠谱」

📌 一句话摘要

本文详细介绍了 Anthropic 最新发布的 Claude Opus 4.7 模型，重点分析了其在代码生成、视觉推理和工具调用方面的性能提升，以及其「敢于反驳用户」和「任务韧性」等更「靠谱」的特性，并探讨了其定价策略、新功能及对开发工作流的影响。

📝 详细摘要

文章报道了 Anthropic 最新发布的 Claude Opus 4.7 模型。尽管官方声明其并非最强模型，但 4.7 在多项基准测试中表现突出，尤其在 SWE-bench Pro 等硬核编程评测上超越了 GPT-5.4 和 Gemini 3.1 Pro。文章核心观点在于，4.7 的价值不仅在于性能提升，更在于其展现出的「靠谱」特质：敢于反驳用户的错误方案、在工具调用失败时能自行绕过障碍完成任务、以及在细节处理上更加严谨。作者通过三个前端交互场景的测试，展示了 4.7 在遵守规则和细节呈现上的能力。同时，文章也指出了 4.7 引入新分词器导致实际 Token 消耗可能增加、以及新推出的 /ultrareview、Auto Mode 和「任务预算」等配套功能。最后，文章将 4.7 置于 Anthropic 快速的产品迭代节奏中，认为其稳定、高频的更新本身就是一种护城河。

💡 主要观点

- Claude 4.7 的核心优势是「靠谱」，而非单纯的性能碾压。 模型在遇到用户错误方案时会主动反驳，在工具链故障时能自行绕行完成任务，这种「拒绝顺从」和「任务韧性」特性，使其更像一个严谨的资深同事，而非唯命是从的助手。

在多项关键基准测试中，4.7 实现了显著提升并超越主要竞争对手。 在 SWE-bench Pro（编程）上从 53.4% 提升至 64.3%，视觉推理 CharXiv 基准从 69.1% 跳至 82.1%，工具调用 MCP-Atlas 评测达到 77.3%，均领先于 GPT-5.4 和 Gemini 3.1 Pro。

性能提升伴随成本变化，并催生了新的工作流和管控功能。 新分词器使 Token 消耗增加 1.0-1.35 倍，配合「xhigh」思考级别，实际成本可能上升。为此，Anthropic 推出了 /ultrareview 深度审查、Auto Mode 自动模式和「任务预算」功能，以优化和管控开发流程。

4.7 是 Anthropic 高速、稳定产品交付节奏的体现，其生态已超越聊天机器人。 在短短 52 天内更新 74 款产品，这种可预期的快速迭代本身构成了护城河。Claude 生态正深度嵌入实际工作流，4.7 是其中一块关键的「压舱石」。

💬 文章金句

- 它解决了一个比聪明更重要的痛点：靠谱。不是那种你说什么它就做什么的靠谱，而是当你提出一个愚蠢的方案时，它敢于反驳你，并自己把坑填上的靠谱。

这种「拒绝顺从」的特质，恰恰是高级软件工程里最稀缺的东西。
当 AI 停止谄媚，真正的生产力才开始爆发。
Anthropic 用行动告诉所有人，对于真正的编码任务，省着用不如想清楚。
对于那些渴望将 AI 深度嵌入实际工作流的团队而言，这种稳定、高频且可预期的更新节奏，才是最让人感到踏实的定心丸。

📊 文章信息

AI 初评：87

来源：爱范儿

作者：莫崇宇

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2840

标签： Claude 4.7, Anthropic, 大语言模型, AI 编程, 基准测试

阅读完整文章

Claude Opus 4.7 发布：不是最强，但更「靠谱」

🤖 問 AI