实测 Claude Opus 4.7，好好的模型也开始不说人话了。

📌 一句话摘要

本文基于作者实测，详细分析了 Claude Opus 4.7 在视觉能力、审美、编程效率上的显著提升，同时尖锐地指出了其语言风格「不说人话」的倒退趋势，并探讨了新 tokenizer 导致的隐形涨价、新增功能及安全验证计划等关键更新。

📝 详细摘要

文章是作者对 Claude Opus 4.7 模型发布后的深度实测报告。作者首先观察到模型在视觉能力上取得巨大飞跃，在 XBOW 视觉测试中从 4.6 的 54.5% 提升至 98.5%，高分辨率图像处理能力提升 3 倍，对知识工作者是重大利好。其次，模型在审美和用户体验设计上有所进步，作者用其快速构建了一个招聘网站，开发体验优于 4.6。然而，作者也指出了关键问题：新 tokenizer 导致相同内容消耗 token 增加最多 35%，构成隐形涨价；最令人失望的是，模型在文字创作上出现了「不说人话」的倾向，语言风格变得生硬、充满「伪人味」，丧失了 4.6 的文字品味。文章还介绍了新增的 xhigh 推理档位、昂贵的 /ultrareview 代码审查命令，以及具有长期产业价值的「网络安全验证计划」。最后，作者表达了对大模型过度追求编程能力而牺牲语言美感和人文价值的忧虑。

💡 主要观点

- Claude Opus 4.7 视觉与多模态能力实现飞跃，但新 tokenizer 导致隐形涨价。 模型在 XBOW 视觉测试中成功率从 54.5% 跃升至 98.5%，支持分辨率提升 3 倍，极大增强了处理复杂图像和文档的能力。然而，新 tokenizer 使相同输入消耗 token 增加最多 35%，在 API 价格不变的情况下，对非高难任务用户意味着成本上升。

模型在审美、UX 设计和微型项目开发效率上感知提升，但语言风格出现严重倒退。 作者实测用 4.7 快速构建招聘网站，认为其审美和交互设计理解优于 4.6。但模型在文字创作上开始使用生硬、非自然的「伪人」语言，丧失了 4.6 良好的文字品味，这是本次更新最令人失望的缺陷。

新增功能聚焦于深度代码审查和安全研究合规化，体现了 AI 向产业纵深发展的趋势。 /ultrareview 命令提供深度代码审查但价格昂贵。更值得关注的是「网络安全验证计划」，为白帽黑客等合法安全研究开辟了特殊使用通道，这种分级授权模式对未来 AI 在医疗、金融等敏感领域的合规应用具有示范意义。

行业过度内卷编程基准，可能导致大模型丧失语言的人文价值与美感。 作者批评当前 AI 公司过度追求编程等可量化能力，系统性牺牲了模型在文学创作、情感交流等「非商业价值」领域的表现，导致模型越来越聪明却「不会说人话」，这是一种悲哀的技术异化。

💬 文章金句

- Claude Opus 4.6 绝大多数的性能从官方发出来的看，完全没跑过 GPT-5.4，这个是最有意思的，可以算是第一次承认，我的 Opus 4.6 在编程上打不过 GPT 5.4。

4.6 只有 54.5%，也就是一半的图模型看得迷迷糊糊的，但 4.7 直接 98.5%，基本等于全部通过。成功率从一半直接干到近乎满，这个意义还是挺重要的。
我差点应激。然后立刻去让它同文风续写一下我昨天发的文章，直接心凉了半截。狗屎，一坨狗屎。一股子伪人味道，我真的佛了，好好的 Claude，怎么也开始不说人话了。
这个事的背景是，以前白帽子、安全团队想用 Claude 做漏洞研究、做渗透测试，经常被模型一刀切拒绝。因为模型识别不了你是恶意还是合法，安全起见全拒。
但问题是，一个模型，它不应该只是一个编程工具啊。语言，是人类所有智力活动的底座。一个好的语言模型，应该能写小说，能写诗，能写散文，能陪你聊深夜三点睡不着的那点心事。

📊 文章信息

AI 初评：88

来源：数字生命卡兹克

作者：数字生命卡兹克

分类：人工智能

语言：中文

阅读时间：19 分钟

字数：4556

标签： Claude Opus 4.7, 模型评测, 多模态, AI 编程, 语言风格

阅读完整文章

实测 Claude Opus 4.7，好好的模型也开始不说人话了。

🤖 問 AI