本文详细解读了 Anthropic 最新发布的 Claude Opus 4.7 模型,指出其核心定位是强化编程、工具调用和视觉理解等「干活」能力,而非通用聊天,并分析了其性能提升、API 变更、使用方式变化以及企业升级建议。
📝 详细摘要
文章深入报道了 Anthropic 发布的 Claude Opus 4.7 模型。该模型并非追求全能冠军,而是专注于提升编程(SWE-bench 得分显著提升)、工具调用(MCP-Atlas 领先)、终端操作和视觉理解(图像分辨率提升三倍)等实际生产力任务的能力。然而,其在网络搜索(BrowseComp 测试退步)和非代码类分析/写作任务上表现可能不如前代,且对话风格更趋字面化,需要用户提供更直接的指令。文章还详细梳理了 API 的重大变更(如移除扩展思考预算、新 tokenizer 导致成本变化)、官方推荐的最佳实践(如使用 xhigh 努力级别、明确指令),并综合了多位行业专家和早期用户的反馈,为企业是否升级提供了基于场景的决策参考。
💡 主要观点
- Opus 4.7 是专注「实干」而非「闲聊」的模型,在编码、工具调用和视觉任务上提升显著。 模型在 SWE-bench、MCP-Atlas、OSWorld 等反映实际开发与自动化场景的基准测试中领先竞品,图像分辨率提升带来视觉理解能力飞跃,但其设计目标明确偏向执行而非泛化聊天。
xhigh 为推荐级别)和工具使用倾向。
💬 文章金句
- 这不是一个更会聊天的新旗舰,而是一个更适合干活的公开版本。
- Opus 4.7 在编程、终端操作和多步骤智能体任务上进步明显,但在分析、写作、研究这类非代码任务上,反而更容易显得生硬、字面。
- 跟 Opus 4.7 说话要直接。它不再像旧模型那样会揣摩你的意思,而是严格执行你给出的指令。
- Opus 4.7 是一个有纪律性的模型,它不追求在所有任务上都得第一,而是在编码、工具使用、视觉理解这些实际干活的能力上做深。
- 对于 Replit、Notion、Shopify 这些公司的工程团队来说,从看着 AI 干活到管理 AI 结果的转变已经开始了。
📊 文章信息
AI 初评:87
来源:网易科技
作者:网易科技
分类:人工智能
语言:中文
阅读时间:29 分钟
字数:7095
标签: Claude Opus 4.7, Anthropic, 大语言模型, AI 编程, 模型评测