Claude Opus 4.8 实测封神！强到离谱，也贵到肉痛

📌 一句话摘要

本文全面评测了 Claude Opus 4.8 模型，呈现了其在编程、写作和企业级任务上的顶尖表现，同时揭示了其依赖高强度推理、高昂使用成本和糟糕桌面端体验等严重缺陷。

📝 详细摘要

文章围绕 Anthropic 最新发布的 Claude Opus 4.8 模型展开深度评测。一方面，以 Every 团队为代表的评测者认为该模型在「高级工程师基准」测试中暴涨 30 分，以 63 分险胜 GPT-5.5；写作基准测试中以 79.6 分大幅领先；在企业级 PPT 生成、法律审查、财务数据分析等任务中表现惊艳，沃顿商学院教授甚至用它自主完成了一篇学术论文。另一方面，以 DHH 和 antirez 为首的开发者则公开批评其实际编码体感落后于 GPT-5.5，认为其跑分存在「陷阱」。文章指出 Opus 4.8 存在三大硬伤：高强度推理模式下性能骤降、Rate Limits 极其严苛导致高额费用、桌面端 UI 设计混乱。此外，文章还讨论了 Anthropic 在营销中展示失败数据的「诚实」策略，以及距离上一代仅 6 周的仓促发布节奏，暗示这只是一个过渡版本，真正的旗舰 Mythos 即将面世。

💡 主要观点

- Opus 4.8 在多项基准测试中表现顶尖，尤其在编程和写作领域。 在 Every 团队的测试中，Opus 4.8 在「高级工程师基准」得 63 分，险胜 GPT-5.5 的 62 分；写作基准测试得 79.6 分，大幅领先其他模型。它能自主重构代码库、生成高质量 PPT，甚至完成学术论文。

Opus 4.8 的性能高度依赖推理强度设置，低强度模式下表现平庸。 在 Extra-High 强度下编码得 63 分，High 强度下骤降至 42 分。写作能力同样随强度降低而退化，暴露出套路化问题。这导致其实际使用成本极高，且 Rate Limits 严重。

开发者社区对 Opus 4.8 的实际编码体验评价两极分化，部分认为不如 GPT-5.5。 DHH 和 antirez 等知名开发者公开批评其编码体感落后于 GPT-5.5，认为 Anthropic 的基准测试与用户实际体验脱节，可能损害公信力。

Opus 4.8 的桌面端 UI 设计混乱，用户体验远逊于 OpenAI 的 Codex。 Chat、Code、Cowork 三个独立标签页的设计被批评为「混乱不堪」，导致用户仅在处理复杂任务时才切换回 Claude，日常使用仍以 GPT-5.5 为主。

Opus 4.8 被定位为过渡版本，真正的旗舰模型 Mythos 即将发布。 距离上一代仅 6 周的仓促发布节奏，暗示这是应对 GPT-5.5 市场份额蚕食的应急产品。业内人士指出，Mythos 才是 Anthropic 真正的下一代旗舰。

💬 文章金句

- 他们完全可以直接叫它 Opus 5，根本不会有人有异议。

一个模型的好坏，取决于套在它外面的那层壳。
Anthropic 这次把 GPT-5.5 放在同一张图里对比，犯了一个「重大的战略错误」。
如果连你在自己最烂熟于心的工作上都感觉不出差异，那么这些跑分对你来说，就没有任何意义。
Opus 4.8 只是一个过渡的创可贴，它修补了 4.7 的一些毛病，去几个 Agent 榜单上刷了存在感。

📊 文章信息

AI 初评：85

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4910

标签： Claude Opus 4.8, Anthropic, 大模型评测, AI 编程, GPT-5.5

阅读完整文章

Claude Opus 4.8 实测封神！强到离谱，也贵到肉痛

🤖 問 AI