Opus 4.7 来了！官方罕见承认并非最强，用户直呼：真能干，但也太难聊了

📌 一句话摘要

本文详细解读了 Anthropic 最新发布的 Claude Opus 4.7 模型，指出其核心定位是强化编程、工具调用和视觉理解等「干活」能力，而非通用聊天，并分析了其性能提升、API 变更、使用方式变化以及企业升级建议。

📝 详细摘要

文章深入报道了 Anthropic 发布的 Claude Opus 4.7 模型。该模型并非追求全能冠军，而是专注于提升编程（SWE-bench 得分显著提升）、工具调用（MCP-Atlas 领先）、终端操作和视觉理解（图像分辨率提升三倍）等实际生产力任务的能力。然而，其在网络搜索（BrowseComp 测试退步）和非代码类分析/写作任务上表现可能不如前代，且对话风格更趋字面化，需要用户提供更直接的指令。文章还详细梳理了 API 的重大变更（如移除扩展思考预算、新 tokenizer 导致成本变化）、官方推荐的最佳实践（如使用 xhigh 努力级别、明确指令），并综合了多位行业专家和早期用户的反馈，为企业是否升级提供了基于场景的决策参考。

💡 主要观点

- Opus 4.7 是专注「实干」而非「闲聊」的模型，在编码、工具调用和视觉任务上提升显著。 模型在 SWE-bench、MCP-Atlas、OSWorld 等反映实际开发与自动化场景的基准测试中领先竞品，图像分辨率提升带来视觉理解能力飞跃，但其设计目标明确偏向执行而非泛化聊天。

模型行为与 API 规则发生重大变化，迁移需谨慎调整工作流和提示词。 移除了固定预算的扩展思考，改为自适应思考；采用了新的 tokenizer，输入成本可能增加 0-35%；指令遵循更严格，需要更直接、完整的提示词，旧有提示词模板可能失效。

使用 Opus 4.7 需要改变交互策略，从「揣摩意图」转向「明确指令」。 官方建议用户提供清晰的任务意图、限制条件和验收标准，减少来回对话轮次，并主动在提示词中控制模型的思考深度（xhigh 为推荐级别）和工具使用倾向。

企业升级决策应基于具体任务类型，并非所有场景都适合立即迁移。 重度依赖网络搜索和多页面信息整合的工作流可能体验下降；已为 Opus 4.6 精细调优的提示词需要重测；需评估新 tokenizer 对成本的影响。对于构建复杂智能体和软件系统的团队，其可靠性和长任务处理能力价值显著。

💬 文章金句

- 这不是一个更会聊天的新旗舰，而是一个更适合干活的公开版本。

Opus 4.7 在编程、终端操作和多步骤智能体任务上进步明显，但在分析、写作、研究这类非代码任务上，反而更容易显得生硬、字面。
跟 Opus 4.7 说话要直接。它不再像旧模型那样会揣摩你的意思，而是严格执行你给出的指令。
Opus 4.7 是一个有纪律性的模型，它不追求在所有任务上都得第一，而是在编码、工具使用、视觉理解这些实际干活的能力上做深。
对于 Replit、Notion、Shopify 这些公司的工程团队来说，从看着 AI 干活到管理 AI 结果的转变已经开始了。

📊 文章信息

AI 初评：87

来源：网易科技

作者：网易科技

分类：人工智能

语言：中文

阅读时间：29 分钟

字数：7095

标签： Claude Opus 4.7, Anthropic, 大语言模型, AI 编程, 模型评测

阅读完整文章

Opus 4.7 来了！官方罕见承认并非最强，用户直呼：真能干，但也太难聊了

🤖 問 AI