本文实测了 Claude Opus 4.8,认为其在开发编程上进步显著,更精确、更诚实、不偷懒,但创作能力仍不如 Opus 4.6,且主动性变弱,对非专业用户可能不友好。
📝 详细摘要
文章作者在 Claude Opus 4.8 上线后第一时间进行了实测和深度体验。文章首先介绍了模型发布的背景,认为这是 Anthropic 在 GPT-5.5 和 Opus 4.7 口碑不佳的压力下快速推出的救火版本。核心体验分为几个方面:一是思考强度控制向所有用户开放,提升了可控性;二是模型变得更精确、更遵循指令,但主动性变弱,不再主动猜测用户未言明的需求,这对专业开发者是好事,但对依赖 AI 主动性的 Vibe Coding 群体可能造成困扰;三是模型变得更加诚实,不再盲目自信地打包票,其代码瑕疵蒙混过关的概率比上一代低 4 倍,系统卡显示其偷懒不良率为 0%;四是创作能力虽有进步但仍不如 Opus 4.6,存在 AI 味重、滥用比喻和排比等问题。此外,文章还提到了 Fast Mode 价格大幅下降以及 Claude Code 新增的动态工作流功能。最后,作者表达了对 Opus 4.6 被下架的失落,以及对即将到来的更高级模型 Mythos 的期待。
💡 主要观点
- Claude Opus 4.8 在编程开发上进步显著,更精确、更诚实、不偷懒。 模型在遵循指令、减少幻觉和代码瑕疵方面有大幅提升,系统卡显示其偷懒不良率为 0%,在代码审查和优化任务中表现可靠,对专业开发者是重大利好。
💬 文章金句
- Opus 4.8 让自己写的代码里的瑕疵蒙混过关的概率,比上一代低了大概 4 倍。
- 在偷懒这个问题上,Opus 4.8,好像是唯一一个,能做到 0% 不良率的模型。
- 你含含糊糊扔一句话过去,它就能猜到你心里那个完整的需求,然后问你是不是,在帮你直接搞出来,这种被理解的感觉,其实还挺上头的。
- 未来再跟 Opus 4.8 协同的时候,可能需要,对大家需求表达能力,要求的更高了。
📊 文章信息
AI 初评:87
来源:数字生命卡兹克
作者:数字生命卡兹克
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4235
标签: Claude Opus 4.8, 模型评测, AI 编程, Anthropic, 大语言模型