本文基于作者实测,详细分析了 Claude Opus 4.7 在视觉能力、审美、编程效率上的显著提升,同时尖锐地指出了其语言风格「不说人话」的倒退趋势,并探讨了新 tokenizer 导致的隐形涨价、新增功能及安全验证计划等关键更新。
📝 详细摘要
文章是作者对 Claude Opus 4.7 模型发布后的深度实测报告。作者首先观察到模型在视觉能力上取得巨大飞跃,在 XBOW 视觉测试中从 4.6 的 54.5% 提升至 98.5%,高分辨率图像处理能力提升 3 倍,对知识工作者是重大利好。其次,模型在审美和用户体验设计上有所进步,作者用其快速构建了一个招聘网站,开发体验优于 4.6。然而,作者也指出了关键问题:新 tokenizer 导致相同内容消耗 token 增加最多 35%,构成隐形涨价;最令人失望的是,模型在文字创作上出现了「不说人话」的倾向,语言风格变得生硬、充满「伪人味」,丧失了 4.6 的文字品味。文章还介绍了新增的 xhigh 推理档位、昂贵的 /ultrareview 代码审查命令,以及具有长期产业价值的「网络安全验证计划」。最后,作者表达了对大模型过度追求编程能力而牺牲语言美感和人文价值的忧虑。
💡 主要观点
- Claude Opus 4.7 视觉与多模态能力实现飞跃,但新 tokenizer 导致隐形涨价。 模型在 XBOW 视觉测试中成功率从 54.5% 跃升至 98.5%,支持分辨率提升 3 倍,极大增强了处理复杂图像和文档的能力。然而,新 tokenizer 使相同输入消耗 token 增加最多 35%,在 API 价格不变的情况下,对非高难任务用户意味着成本上升。
💬 文章金句
- Claude Opus 4.6 绝大多数的性能从官方发出来的看,完全没跑过 GPT-5.4,这个是最有意思的,可以算是第一次承认,我的 Opus 4.6 在编程上打不过 GPT 5.4。
- 4.6 只有 54.5%,也就是一半的图模型看得迷迷糊糊的,但 4.7 直接 98.5%,基本等于全部通过。成功率从一半直接干到近乎满,这个意义还是挺重要的。
- 我差点应激。然后立刻去让它同文风续写一下我昨天发的文章,直接心凉了半截。狗屎,一坨狗屎。一股子伪人味道,我真的佛了,好好的 Claude,怎么也开始不说人话了。
- 这个事的背景是,以前白帽子、安全团队想用 Claude 做漏洞研究、做渗透测试,经常被模型一刀切拒绝。因为模型识别不了你是恶意还是合法,安全起见全拒。
- 但问题是,一个模型,它不应该只是一个编程工具啊。语言,是人类所有智力活动的底座。一个好的语言模型,应该能写小说,能写诗,能写散文,能陪你聊深夜三点睡不着的那点心事。
📊 文章信息
AI 初评:88
来源:数字生命卡兹克
作者:数字生命卡兹克
分类:人工智能
语言:中文
阅读时间:19 分钟
字数:4556
标签: Claude Opus 4.7, 模型评测, 多模态, AI 编程, 语言风格