Anthropic 发布 Claude Opus 4.8,带来小幅但切实的模型能力提升,同时推出 Claude Code Dynamic Workflows 和 API effort 参数,为后续 Mythos 模型铺路。
📝 详细摘要
文章详细解读了 Anthropic 最新发布的 Claude Opus 4.8 模型及其配套更新。Opus 4.8 在代码、Agent 技能、推理和知识工作方面有提升,尤其在检测代码缺陷方面比 Opus 4.7 少漏掉约 75% 的问题。SWE-Bench Pro 得分 69.2%,Online-Mind2Web 达到 84%。更值得关注的是同步推出的 Claude Code Dynamic Workflows,它允许模型在复杂任务中动态编写脚本、并行调度子 Agent 并验证结果,标志着 Claude 从单一模型向工作流系统的演进。API 新增 effort 参数,让开发者可以控制模型的思考强度,实现成本与效果的平衡。文章还提到 Mythos 已在 Project Glasswing 中预览,Opus 4.8 更像是为 Mythos 正式落地补齐底座和工具链。
💡 主要观点
- Opus 4.8 是 Opus 4.7 的小幅升级,在代码缺陷检测上有显著进步。 官方称 Opus 4.8 比 4.7 少漏掉约 75% 的故意埋入代码问题,这对真实工程流价值更大。SWE-Bench Pro 得分 69.2%,提升约 5 个百分点。
💬 文章金句
- 这是相对 Opus 4.7 的一次 modest but tangible improvement,也就是小幅但能摸到的提升。
- Coding agent 真正麻烦的地方,往往不是不会写代码,而是会把有问题的代码写得很像那么回事,然后很自信地交给你。
- 这不是一次孤立的模型更新,更像是 Claude 继续向'工作流系统'移动的一次铺路。
- 以后真正的问题不再只是'哪个模型最强',而是'这个任务值不值得用最强模型想很久'。
📊 文章信息
AI 初评:86
来源:AINLP
作者:AINLP
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2793
标签: Claude Opus 4.8, Anthropic, 大语言模型, AI Agent, Claude Code