排名第九、国内第二，DeepSeek V4 凭什么让人又爱又恨？

📌 一句话摘要

本文通过一周真实业务流测试和四个中国特色场景评测，深入分析了 DeepSeek V4 在中文理解、代码生成、法律引用等方面的真实能力，认为其虽非全能但性价比极高。

📝 详细摘要

文章针对 DeepSeek V4 发布后市场反应平淡的现象，进行了深度实测。作者认为，V4 在 Vals AI 等国际榜单上排名第九、国内第二的成绩，并不能完全反映其在中国用户场景下的真实表现。为此，文章设计了一套包含古诗词深层理解、中国法律法规引用、中文网络梗识别、政策术语翻译等四个中国特色场景的评测方案，以及覆盖数据库设计、代码编写、Bug 诊断、技术文档、智能体任务等完整开发工作流的实测。测试结果显示，V4 在中文古诗词理解上表现顶尖，能做出超越教科书式的解读；在法律引用上实现了零幻觉；在代码生成和诊断上达到工业级水平，但智能体能力和文档生成稍逊。文章还对比了 V4 Pro 与 Flash 版本的成本，指出 V4 Pro 的 API 价格仅为竞品的三分之一到八分之一，性价比极高。最终结论是，V4 并非全能之神，但在核心生产力场景上表现优异，对于大多数开发者和企业而言，是当前最具性价比的选择。

💡 主要观点

- DeepSeek V4 在中文古诗词深层理解上表现顶尖，能做出超越教科书式的解读。 在测试中，V4 对李商隐《无题》中「丝」字的三层含义进行了深度剖析，并提出了「生命之质」这一教科书未提及的层次，展现了强大的文化理解力。

V4 在中国法律法规引用上实现了零幻觉，能准确识别并拒绝回答不存在法条。 面对故意设置的陷阱问题，V4 能明确指出法条不存在，并主动引导用户至正确条款，展现了「负责任的不知道」的可靠能力。

V4 在代码生成和诊断任务上达到工业级顶尖水平，但智能体能力相对平庸。 在完整工作流测试中，V4 的代码生成和 Bug 诊断能力获得接近满分评价，但在技术文档的决策清晰度和智能体任务的多步规划上表现一般。

V4 Pro 的 API 价格仅为竞品的三分之一到八分之一，性价比极高。 在同等使用量下，V4 Pro 的月成本远低于 Kimi K2.6 和 GLM 5.1，而 V4 Flash 版本的成本更低，使其成为当前最具性价比的顶级模型之一。

💬 文章金句

- 你失去了整个世界，而世界若无其事。

敢于说'找不到'，还能引导你到正确的地方，这种'负责任的不知道'，正是模型落地最珍贵的能力。
能让法拉利跑出比亚迪油耗的，全世界也没几个。
V4 Pro 在代码、文档、写作、翻译等核心生产力场景上表现，已经好到可以让你忘记那份差距，心安理得地省下一大笔钱。

📊 文章信息

AI 初评：86

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：30 分钟

字数：7363

标签： DeepSeek V4, 大模型评测, 中文理解, 代码生成, 性价比

阅读完整文章

排名第九、国内第二，DeepSeek V4 凭什么让人又爱又恨？

🤖 問 AI