本文全面评测了 Claude Opus 4.8 模型,呈现了其在编程、写作和企业级任务上的顶尖表现,同时揭示了其依赖高强度推理、高昂使用成本和糟糕桌面端体验等严重缺陷。
📝 详细摘要
文章围绕 Anthropic 最新发布的 Claude Opus 4.8 模型展开深度评测。一方面,以 Every 团队为代表的评测者认为该模型在「高级工程师基准」测试中暴涨 30 分,以 63 分险胜 GPT-5.5;写作基准测试中以 79.6 分大幅领先;在企业级 PPT 生成、法律审查、财务数据分析等任务中表现惊艳,沃顿商学院教授甚至用它自主完成了一篇学术论文。另一方面,以 DHH 和 antirez 为首的开发者则公开批评其实际编码体感落后于 GPT-5.5,认为其跑分存在「陷阱」。文章指出 Opus 4.8 存在三大硬伤:高强度推理模式下性能骤降、Rate Limits 极其严苛导致高额费用、桌面端 UI 设计混乱。此外,文章还讨论了 Anthropic 在营销中展示失败数据的「诚实」策略,以及距离上一代仅 6 周的仓促发布节奏,暗示这只是一个过渡版本,真正的旗舰 Mythos 即将面世。
💡 主要观点
- Opus 4.8 在多项基准测试中表现顶尖,尤其在编程和写作领域。 在 Every 团队的测试中,Opus 4.8 在「高级工程师基准」得 63 分,险胜 GPT-5.5 的 62 分;写作基准测试得 79.6 分,大幅领先其他模型。它能自主重构代码库、生成高质量 PPT,甚至完成学术论文。
💬 文章金句
- 他们完全可以直接叫它 Opus 5,根本不会有人有异议。
- 一个模型的好坏,取决于套在它外面的那层壳。
- Anthropic 这次把 GPT-5.5 放在同一张图里对比,犯了一个「重大的战略错误」。
- 如果连你在自己最烂熟于心的工作上都感觉不出差异,那么这些跑分对你来说,就没有任何意义。
- Opus 4.8 只是一个过渡的创可贴,它修补了 4.7 的一些毛病,去几个 Agent 榜单上刷了存在感。
📊 文章信息
AI 初评:85
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:20 分钟
字数:4910
标签: Claude Opus 4.8, Anthropic, 大模型评测, AI 编程, GPT-5.5