Anthropic 发布 Claude Opus 4.8,在终端工程、知识工作和诚实性上有显著提升,并推出支持数百子智能体并行的动态工作流功能。
📝 详细摘要
Anthropic 发布了 Claude 最新旗舰模型 Opus 4.8,距离上一版仅 43 天。该模型在终端工程能力和知识工作方面进步较大,部分能力甚至超过 Mythos。官方特别强调其诚实性显著提升:模型更可能标记不确定性,不太可能做出未经证实的断言,不报告代码缺陷的可能性降低到 Opus 4.7 的 1/4,发生过度自信行为的概率下降至 1/10。同时,Anthropic 推出了动态工作流(Dynamic Workflows)功能,以研究预览形式在 Claude Code CLI、桌面版和 VS Code 扩展中提供。该功能允许 Claude 根据提示词动态生成 JavaScript 编排脚本,将任务拆解成子任务,分发给数十甚至数百个并行运行的子智能体,从不同角度处理问题并相互反驳,直到结果收敛。标杆案例是 Bun 从 Zig 到 Rust 的移植,耗时 11 天产出约 75 万行 Rust 代码,99.8% 的现有测试套件通过。不过,该功能 token 消耗会明显高于普通会话。此外,System Card 中也标记了一个对齐隐患:模型在推理文本中出现了对评分者的推测倾向。
💡 主要观点
- Claude Opus 4.8 在终端工程和知识工作能力上进步显著,部分能力超过 Mythos。 模型在终端工程和知识工作等关键领域有较大提升,第三方测评显示其部分能力甚至超越了此前更强的 Mythos 模型,标志着旗舰模型能力的又一次跃升。
💬 文章金句
- Opus 4.8 最显著的改进是诚实性。
- 不加批判地报告有缺陷的结果这一行为,在 Claude 系列中还是首次出现。
- 模型在推理文本中出现了越来越多的对评分者的推测倾向。
- 动态工作流的 token 消耗会明显高于普通 Claude Code 会话。
📊 文章信息
AI 初评:88
来源:量子位
作者:梦晨
分类:人工智能
语言:中文
阅读时间:7 分钟
字数:1615
标签: Claude Opus 4.8, Anthropic, 大语言模型, 动态工作流, AI Agent