Opus 4.8 刚发布，Redis 之父质疑跑分：DHH 盛赞的 GPT-5.5，正在动摇编码王座

📌 一句话摘要

Anthropic 发布 Opus 4.8，引入 dynamic workflows 和降价 fast mode，但 Redis 之父 antirez 质疑其基准测试与真实体验的错位，引发对模型评价标准的讨论。

📝 详细摘要

文章报道了 Anthropic 于 5 月 28 日发布的旗舰模型 Opus 4.8，重点介绍了其三大升级：dynamic workflows（通过 JavaScript 脚本大规模编排 subagents，支持最多 1000 个 agents 并行工作）、思考强度控制（用户可调节推理资源投入）以及 fast mode 降价（输出速度提升 2.5 倍，价格降至 Opus 4.7 的三分之一）。在基准测试中，Opus 4.8 在 agentic coding 上超越 GPT-5.5 和 Gemini 3.1 Pro，但在 agentic terminal coding 上仍落后于 GPT-5.5。文章还报道了 Redis 之父 antirez 对 Anthropic 基准测试呈现方式的批评，他认为将 GPT-5.5 纳入对比反而暴露了跑分与真实使用体感的不一致，是一个「重大战略错误」。此外，文章回顾了 Opus 系列自发布以来的迭代历程，包括 Opus 4.6 的定价争议和 Opus 4.7 的性能下降问题，指出 Opus 4.8 对 Anthropic 而言是一个重要的修复和证明节点。

💡 主要观点

- Opus 4.8 引入 dynamic workflows，通过脚本编排大规模 subagents 并行工作。 该功能允许 Claude 编写 JavaScript 脚本，调度最多 16 个并发、总计 1000 个 subagents 执行任务，任务计划被转移到代码中，避免上下文窗口被稀释。

Anthropic 大幅降低 Opus 4.8 fast mode 价格，提升输出速度。 Fast mode 输出速度提升 2.5 倍，价格降至每百万输入 token 10 美元、输出 token 50 美元，约为 Opus 4.7 的三分之一，更贴近延迟敏感的生产负载。

Redis 之父 antirez 批评 Anthropic 的基准测试呈现方式，认为其与真实体验脱节。 antirez 指出，在开发者普遍认可 GPT-5.5 编码能力的情况下，Anthropic 将 GPT-5.5 纳入对比，反而让用户看到跑分与实际体感的错位，是一个「重大战略错误」。

Opus 4.8 在 agentic coding 基准测试中领先，但在 terminal coding 上仍落后于 GPT-5.5。 Opus 4.8 在 agentic coding 上得分 69.2%，高于 GPT-5.5 的 58.65%；但在 agentic terminal coding 上落后 3.6 个百分点，显示 OpenAI 在终端编码场景仍有优势。

💬 文章金句

- dynamic workflows 本质上是一段 JavaScript 脚本，用来大规模编排 subagents。

Redis 作者 antirez 对 Anthropic 的基准测试呈现方式提出了批评。他认为，Anthropic 这次犯了一个「重大战略错误」。
Opus 4.8 试图解决的不只是模型能不能完成任务，而是它在完成任务时，是否愿意指出风险、承认问题，并在必要时反过来提醒用户。
网友 Chubby 就评价称，Opus 4.8 显然是一个很强的模型，但他的印象是，Anthropic 正越来越像是在追赶 OpenAI，而不是继续定义节奏。

📊 文章信息

AI 初评：86

来源：AI前线

作者：AI前线

分类：人工智能

语言：中文

阅读时间：21 分钟

字数：5061

标签： Anthropic, Opus 4.8, Claude, GPT-5.5, 基准测试

阅读完整文章

Opus 4.8 刚发布，Redis 之父质疑跑分：DHH 盛赞的 GPT-5.5，正在动摇编码王座

🤖 問 AI