实测 Claude Opus 4.8，这可能是第一个不会偷懒的模型。

📌 一句话摘要

本文实测了 Claude Opus 4.8，认为其在开发编程上进步显著，更精确、更诚实、不偷懒，但创作能力仍不如 Opus 4.6，且主动性变弱，对非专业用户可能不友好。

📝 详细摘要

文章作者在 Claude Opus 4.8 上线后第一时间进行了实测和深度体验。文章首先介绍了模型发布的背景，认为这是 Anthropic 在 GPT-5.5 和 Opus 4.7 口碑不佳的压力下快速推出的救火版本。核心体验分为几个方面：一是思考强度控制向所有用户开放，提升了可控性；二是模型变得更精确、更遵循指令，但主动性变弱，不再主动猜测用户未言明的需求，这对专业开发者是好事，但对依赖 AI 主动性的 Vibe Coding 群体可能造成困扰；三是模型变得更加诚实，不再盲目自信地打包票，其代码瑕疵蒙混过关的概率比上一代低 4 倍，系统卡显示其偷懒不良率为 0%；四是创作能力虽有进步但仍不如 Opus 4.6，存在 AI 味重、滥用比喻和排比等问题。此外，文章还提到了 Fast Mode 价格大幅下降以及 Claude Code 新增的动态工作流功能。最后，作者表达了对 Opus 4.6 被下架的失落，以及对即将到来的更高级模型 Mythos 的期待。

💡 主要观点

- Claude Opus 4.8 在编程开发上进步显著，更精确、更诚实、不偷懒。 模型在遵循指令、减少幻觉和代码瑕疵方面有大幅提升，系统卡显示其偷懒不良率为 0%，在代码审查和优化任务中表现可靠，对专业开发者是重大利好。

模型主动性变弱，不再主动猜测用户未言明的需求。 Opus 4.8 严格按指令执行，不会像前代模型那样主动补充用户可能需要的额外操作。这对专业开发者意味着更高可控性，但对依赖 AI 主动性的非专业用户可能造成困扰，需要用户更精确地表达需求。

创作能力虽有改善，但整体 AI 味仍重，不如 Opus 4.6。 在内容创作任务中，Opus 4.8 比 4.7 有所进步，但仍存在滥用比喻、大段无意义排比、刻板印象等问题，整体人机味较重，无法达到 Opus 4.6 的创作水准。

💬 文章金句

- Opus 4.8 让自己写的代码里的瑕疵蒙混过关的概率，比上一代低了大概 4 倍。

在偷懒这个问题上，Opus 4.8，好像是唯一一个，能做到 0% 不良率的模型。
你含含糊糊扔一句话过去，它就能猜到你心里那个完整的需求，然后问你是不是，在帮你直接搞出来，这种被理解的感觉，其实还挺上头的。
未来再跟 Opus 4.8 协同的时候，可能需要，对大家需求表达能力，要求的更高了。

📊 文章信息

AI 初评：87

来源：数字生命卡兹克

作者：数字生命卡兹克

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4235

标签： Claude Opus 4.8, 模型评测, AI 编程, Anthropic, 大语言模型

阅读完整文章

实测 Claude Opus 4.8，这可能是第一个不会偷懒的模型。

🤖 問 AI