← 回總覽

实测 Claude Opus4.8,这可能是第一个不会偷懒的模型

📅 2026-05-29 19:24 虎嗅APP 人工智能 2 分鐘 1447 字 評分: 82
Claude Opus 4.8 模型评测 AI 编程 内容创作 Anthropic
📌 一句话摘要 本文实测了 Claude Opus 4.8 模型,认为其在代码开发上更精确、不偷懒,但创作能力仍不及 Opus 4.6,且主动性变弱,对非专业用户可能不友好。 📝 详细摘要 文章作者在 Claude Opus 4.8 发布后第一时间进行了实测。文章指出,Opus 4.8 在代码开发方面有显著进步,核心亮点是「不偷懒」,能更细致地审查代码,且代码瑕疵蒙混过关的概率比上一代低约 4 倍。模型变得更精确、更遵循指令,但同时也变得更不主动,需要用户更精确地表达需求。在创作能力上,Opus 4.8 比 Opus 4.7 有进步,但依然不如作者心目中的巅峰 Opus 4.6,存在 AI

📌 一句话摘要

本文实测了 Claude Opus 4.8 模型,认为其在代码开发上更精确、不偷懒,但创作能力仍不及 Opus 4.6,且主动性变弱,对非专业用户可能不友好。

📝 详细摘要

文章作者在 Claude Opus 4.8 发布后第一时间进行了实测。文章指出,Opus 4.8 在代码开发方面有显著进步,核心亮点是「不偷懒」,能更细致地审查代码,且代码瑕疵蒙混过关的概率比上一代低约 4 倍。模型变得更精确、更遵循指令,但同时也变得更不主动,需要用户更精确地表达需求。在创作能力上,Opus 4.8 比 Opus 4.7 有进步,但依然不如作者心目中的巅峰 Opus 4.6,存在 AI 味重、滥用比喻和排比等问题。文章还介绍了思考强度控制开放给所有用户、更便宜的快速模式以及 Claude Code 的动态工作流等新特性。作者对开发方面的改进表示认可,但对创作能力的退步感到失落。

💡 主要观点

- Claude Opus 4.8 在代码开发上更精确、更诚实,显著减少了偷懒行为。 模型能更细致地审查代码,代码瑕疵蒙混过关的概率比上一代低约 4 倍,在开发任务中表现更可靠,是首个实现 0% 不良率的模型。

Opus 4.8 变得更精确但主动性变弱,对非专业用户可能不友好。 模型严格遵循指令,不会主动推测用户未明确表达的潜在需求。对于依赖模型主动性的 Vibe Coding 群体,这可能降低体验,需要用户具备更强的需求表达能力。
Opus 4.8 的创作能力虽有进步,但仍不及 Opus 4.6,AI 味较重。 在写作任务中,模型仍会使用禁用词、奇怪的比喻和无意义的排比,整体人机味较重,在内容创作上未能达到作者心中 Opus 4.6 的巅峰水平。
新特性包括思考强度控制开放、更便宜的快速模式和动态工作流。 思考强度(effort)控制向所有用户开放;快速模式速度提升 2.5 倍,价格降至标准版的 2 倍;Claude Code 的动态工作流可让模型自动编排子 Agent 并行处理复杂任务。

💬 文章金句

- Opus 4.8,这可能是第一个不会偷懒的模型。

  • 在偷懒这个问题上,Opus 4.8,好像是唯一一个,能做到 0%不良率的模型。
  • 它更加的精确了,有一点 GPT-5.5 的感觉,指哪打哪。
  • 未来再跟 Opus 4.8 协同的时候,可能需要,对大家需求表达能力,要求的更高了。
  • 整体的人机味还都挺重的。

📊 文章信息

AI 初评:82

来源:虎嗅APP

作者:虎嗅APP

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4198

标签: Claude Opus 4.8, 模型评测, AI 编程, 内容创作, Anthropic

阅读完整文章

查看原文 → 發佈: 2026-05-29 19:24:00 收錄: 2026-05-30 04:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。