本文实测了 Claude Opus 4.8 模型,认为其在代码开发上更精确、不偷懒,但创作能力仍不及 Opus 4.6,且主动性变弱,对非专业用户可能不友好。
📝 详细摘要
文章作者在 Claude Opus 4.8 发布后第一时间进行了实测。文章指出,Opus 4.8 在代码开发方面有显著进步,核心亮点是「不偷懒」,能更细致地审查代码,且代码瑕疵蒙混过关的概率比上一代低约 4 倍。模型变得更精确、更遵循指令,但同时也变得更不主动,需要用户更精确地表达需求。在创作能力上,Opus 4.8 比 Opus 4.7 有进步,但依然不如作者心目中的巅峰 Opus 4.6,存在 AI 味重、滥用比喻和排比等问题。文章还介绍了思考强度控制开放给所有用户、更便宜的快速模式以及 Claude Code 的动态工作流等新特性。作者对开发方面的改进表示认可,但对创作能力的退步感到失落。
💡 主要观点
- Claude Opus 4.8 在代码开发上更精确、更诚实,显著减少了偷懒行为。 模型能更细致地审查代码,代码瑕疵蒙混过关的概率比上一代低约 4 倍,在开发任务中表现更可靠,是首个实现 0% 不良率的模型。
💬 文章金句
- Opus 4.8,这可能是第一个不会偷懒的模型。
- 在偷懒这个问题上,Opus 4.8,好像是唯一一个,能做到 0%不良率的模型。
- 它更加的精确了,有一点 GPT-5.5 的感觉,指哪打哪。
- 未来再跟 Opus 4.8 协同的时候,可能需要,对大家需求表达能力,要求的更高了。
- 整体的人机味还都挺重的。
📊 文章信息
AI 初评:82
来源:虎嗅APP
作者:虎嗅APP
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4198
标签: Claude Opus 4.8, 模型评测, AI 编程, 内容创作, Anthropic