Anthropic 发布 Opus 4.8,引入 dynamic workflows 和降价 fast mode,但 Redis 之父 antirez 质疑其基准测试与真实体验的错位,引发对模型评价标准的讨论。
📝 详细摘要
文章报道了 Anthropic 于 5 月 28 日发布的旗舰模型 Opus 4.8,重点介绍了其三大升级:dynamic workflows(通过 JavaScript 脚本大规模编排 subagents,支持最多 1000 个 agents 并行工作)、思考强度控制(用户可调节推理资源投入)以及 fast mode 降价(输出速度提升 2.5 倍,价格降至 Opus 4.7 的三分之一)。在基准测试中,Opus 4.8 在 agentic coding 上超越 GPT-5.5 和 Gemini 3.1 Pro,但在 agentic terminal coding 上仍落后于 GPT-5.5。文章还报道了 Redis 之父 antirez 对 Anthropic 基准测试呈现方式的批评,他认为将 GPT-5.5 纳入对比反而暴露了跑分与真实使用体感的不一致,是一个「重大战略错误」。此外,文章回顾了 Opus 系列自发布以来的迭代历程,包括 Opus 4.6 的定价争议和 Opus 4.7 的性能下降问题,指出 Opus 4.8 对 Anthropic 而言是一个重要的修复和证明节点。
💡 主要观点
- Opus 4.8 引入 dynamic workflows,通过脚本编排大规模 subagents 并行工作。 该功能允许 Claude 编写 JavaScript 脚本,调度最多 16 个并发、总计 1000 个 subagents 执行任务,任务计划被转移到代码中,避免上下文窗口被稀释。
💬 文章金句
- dynamic workflows 本质上是一段 JavaScript 脚本,用来大规模编排 subagents。
- Redis 作者 antirez 对 Anthropic 的基准测试呈现方式提出了批评。他认为,Anthropic 这次犯了一个「重大战略错误」。
- Opus 4.8 试图解决的不只是模型能不能完成任务,而是它在完成任务时,是否愿意指出风险、承认问题,并在必要时反过来提醒用户。
- 网友 Chubby 就评价称,Opus 4.8 显然是一个很强的模型,但他的印象是,Anthropic 正越来越像是在追赶 OpenAI,而不是继续定义节奏。
📊 文章信息
AI 初评:86
来源:AI前线
作者:AI前线
分类:人工智能
语言:中文
阅读时间:21 分钟
字数:5061
标签: Anthropic, Opus 4.8, Claude, GPT-5.5, 基准测试