实测 Claude Opus 4.7，好好的模型也开始不说人话了

📌 一句话摘要

本文基于作者实测，详细分析了 Claude Opus 4.7 在视觉能力、编程效率和审美上的显著提升，同时尖锐地指出了其语言风格「不说人话」的退化趋势，并探讨了新 tokenizer 带来的隐性成本以及新功能的价值。

📝 详细摘要

文章是作者对 Claude Opus 4.7 模型发布后的深度实测报告。作者首先确认了模型已全渠道上线，并获得了额度重置。核心分析围绕几个关键更新展开：1) 新的 tokenizer 导致 token 消耗增加 0-35%，带来隐性成本上涨；2) 视觉能力（尤其是高密度界面识别）和图片分辨率大幅提升，对知识工作者是巨大加成；3) 审美和用户体验设计能力增强，作者用 20 分钟生成了一个高质量的招聘网站作为例证。然而，作者最失望的是模型在「人味」上的退化，其生成的文字开始出现「稳稳接住」、「根因」等互联网黑话，创作能力下降，变得「不说人话」。文章还介绍了新功能，如 xhigh 推理档位、昂贵的 /ultrareview 代码审查命令，以及最重要的「网络安全验证计划」，认为后者为 AI 在专业领域的合规应用提供了有价值的中间态设计。最后，作者表达了对大模型过度追求编程能力而牺牲语言美感和人文价值的忧虑。

💡 主要观点

- Claude Opus 4.7 视觉与多模态能力获得飞跃式提升，但 token 消耗隐性增加。 在 XBOW 视觉测试中，得分从 4.6 的 54.5% 跃升至 98.5%，图片分辨率提升 3 倍，能精准识别复杂界面细节。然而，新 tokenizer 使相同输入消耗的 token 增加 0-35%，API 单价未变但实际成本可能上涨。

模型在编程效率、审美和用户体验设计上表现更佳，但语言风格出现严重退化。 作者实测用 4.7 快速生成了高质量的招聘网站，证明其在理解需求和美学输出上优于前代。但模型在知识创作类任务中开始输出「稳稳接住」、「根因」等生硬黑话，失去了 4.6 的文字品味和「人味」。

「网络安全验证计划」是本次更新中最具长期价值的产业级设计。 Anthropic 为合法的安全研究开辟了特殊申请通道，解决了 AI 能力在「全拒」与「全开」之间的合规难题。这种身份核验与分级授权模式，为 AI 在医疗、金融等敏感领域的深度应用提供了可复用的范本。

大模型行业过度聚焦编程能力，正在系统性牺牲语言的人文价值。 作者观察到，三年来所有主流模型都在卷编程基准，但语言美感、创作能力和人性化交流能力却在退步。这反映了商业价值驱动下，无法量化的「人味」被置于低优先级，是技术发展的悲哀。

💬 文章金句

- Claude Opus 4.6 绝大多数的性能从官方发出来的看，完全没跑过 GPT-5.4，这个是最有意思的，可以算是第一次承认，我的 Opus 4.6 在编程上打不过 GPT 5.4。

4.6 只有 54.5%，也就是一半的图模型看得迷迷糊糊的，但 4.7 直接 98.5%，基本等于全部通过。成功率从一半直接干到近乎满，这个意义还是挺重要的。
狗屎，一坨狗屎。一股子伪人味道，我真的佛了，好好的 Claude，怎么也开始不说人话了。
现在 Anthropic 说，合法从业者你可以来申请，我们走一个特殊流程，通过了给你开通相应能力。其实 AI 行业越来越走到这一步了...全拒和全开之间，其实需要一个身份核验+分级授权的中间态。
但问题是，一个模型，它不应该只是一个编程工具啊。语言，是人类所有智力活动的底座。一个好的语言模型，应该能写小说，能写诗，能写散文，能陪你聊深夜三点睡不着的那点心事。

📊 文章信息

AI 初评：87

来源：创业邦

作者：创业邦

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4472

标签： Claude Opus 4.7, 模型评测, 多模态, AI 编程, 语言风格

阅读完整文章

实测 Claude Opus 4.7，好好的模型也开始不说人话了

🤖 問 AI