← 回總覽

Opus 4.7 来了!官方罕见承认并非最强,用户直呼:真能干,但也太难聊了

📅 2026-04-17 09:48 网易科技 人工智能 2 分鐘 1600 字 評分: 87
Claude Opus 4.7 Anthropic 大语言模型 AI 编程 模型评测
📌 一句话摘要 本文详细解读了 Anthropic 最新发布的 Claude Opus 4.7 模型,指出其核心定位是强化编程、工具调用和视觉理解等「干活」能力,而非通用聊天,并分析了其性能提升、API 变更、使用方式变化以及企业升级建议。 📝 详细摘要 文章深入报道了 Anthropic 发布的 Claude Opus 4.7 模型。该模型并非追求全能冠军,而是专注于提升编程(SWE-bench 得分显著提升)、工具调用(MCP-Atlas 领先)、终端操作和视觉理解(图像分辨率提升三倍)等实际生产力任务的能力。然而,其在网络搜索(BrowseComp 测试退步)和非代码类分析/写作任务

📌 一句话摘要

本文详细解读了 Anthropic 最新发布的 Claude Opus 4.7 模型,指出其核心定位是强化编程、工具调用和视觉理解等「干活」能力,而非通用聊天,并分析了其性能提升、API 变更、使用方式变化以及企业升级建议。

📝 详细摘要

文章深入报道了 Anthropic 发布的 Claude Opus 4.7 模型。该模型并非追求全能冠军,而是专注于提升编程(SWE-bench 得分显著提升)、工具调用(MCP-Atlas 领先)、终端操作和视觉理解(图像分辨率提升三倍)等实际生产力任务的能力。然而,其在网络搜索(BrowseComp 测试退步)和非代码类分析/写作任务上表现可能不如前代,且对话风格更趋字面化,需要用户提供更直接的指令。文章还详细梳理了 API 的重大变更(如移除扩展思考预算、新 tokenizer 导致成本变化)、官方推荐的最佳实践(如使用 xhigh 努力级别、明确指令),并综合了多位行业专家和早期用户的反馈,为企业是否升级提供了基于场景的决策参考。

💡 主要观点

- Opus 4.7 是专注「实干」而非「闲聊」的模型,在编码、工具调用和视觉任务上提升显著。 模型在 SWE-bench、MCP-Atlas、OSWorld 等反映实际开发与自动化场景的基准测试中领先竞品,图像分辨率提升带来视觉理解能力飞跃,但其设计目标明确偏向执行而非泛化聊天。

模型行为与 API 规则发生重大变化,迁移需谨慎调整工作流和提示词。 移除了固定预算的扩展思考,改为自适应思考;采用了新的 tokenizer,输入成本可能增加 0-35%;指令遵循更严格,需要更直接、完整的提示词,旧有提示词模板可能失效。
使用 Opus 4.7 需要改变交互策略,从「揣摩意图」转向「明确指令」。 官方建议用户提供清晰的任务意图、限制条件和验收标准,减少来回对话轮次,并主动在提示词中控制模型的思考深度(xhigh 为推荐级别)和工具使用倾向。
企业升级决策应基于具体任务类型,并非所有场景都适合立即迁移。 重度依赖网络搜索和多页面信息整合的工作流可能体验下降;已为 Opus 4.6 精细调优的提示词需要重测;需评估新 tokenizer 对成本的影响。对于构建复杂智能体和软件系统的团队,其可靠性和长任务处理能力价值显著。

💬 文章金句

- 这不是一个更会聊天的新旗舰,而是一个更适合干活的公开版本。

  • Opus 4.7 在编程、终端操作和多步骤智能体任务上进步明显,但在分析、写作、研究这类非代码任务上,反而更容易显得生硬、字面。
  • 跟 Opus 4.7 说话要直接。它不再像旧模型那样会揣摩你的意思,而是严格执行你给出的指令。
  • Opus 4.7 是一个有纪律性的模型,它不追求在所有任务上都得第一,而是在编码、工具使用、视觉理解这些实际干活的能力上做深。
  • 对于 Replit、Notion、Shopify 这些公司的工程团队来说,从看着 AI 干活到管理 AI 结果的转变已经开始了。

📊 文章信息

AI 初评:87

来源:网易科技

作者:网易科技

分类:人工智能

语言:中文

阅读时间:29 分钟

字数:7095

标签: Claude Opus 4.7, Anthropic, 大语言模型, AI 编程, 模型评测

阅读完整文章

查看原文 → 發佈: 2026-04-17 09:48:00 收錄: 2026-04-17 20:00:57

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。