现在，连 DeepSeek V4 也开始调侃 Anthropic 的 Claude 了

📌 一句话摘要

本文解读了 DeepSeek-V4 技术报告，重点分析了其在百万 token 上下文效率、白领任务评测中对 Claude 的针对性对比，以及架构创新与中文写作优势。

📝 详细摘要

文章围绕 DeepSeek-V4 开源技术报告展开解读，核心聚焦三个层面：一是架构创新，通过混合注意力（CSA + HCA）、Muon 优化器和 mHC 残差连接，在 1M 上下文下实现 KV Cache 降至传统 GQA 的约 2%；二是在白领任务评测中，DeepSeek 直接对比 Claude Opus 4.6，指出其「只会输出过于简单化的要点列表」，并在 Content Quality 维度以 83.32 对 78.00 胜出；三是中文写作与搜索的统治级表现，在中文功能写作 pairwise 对比中以 62.7% 胜率碾压 Gemini-3.1-Pro。文章也客观承认了 DeepSeek-V4 在复杂指令跟随和多轮对话上仍落后于 Claude。整体上，这是一篇对技术报告的结构化解读，信息密度较高，但缺乏独立分析和实测验证。

💡 主要观点

- DeepSeek-V4 通过混合注意力架构实现百万 token 上下文的高效处理。 CSA 做稀疏选择、HCA 做重度压缩稠密注意力，配合 Muon 优化器和 mHC 残差连接，在 1M 上下文下 KV Cache 降至传统 GQA 的约 2%，单 token FLOPs 仅为 V3.2 的 27%。

技术报告在白领任务评测中直接对比 Claude Opus 4.6，指出其输出过于简单化。 DeepSeek 在报告中直言 Claude 只会输出 overly simplistic bullet points，并在 Content Quality 维度以 83.32 对 78.00 胜出，整体胜率 53% 对 37%。

中文写作是 DeepSeek-V4 的绝对优势领域。 在中文功能写作 pairwise 对比中，V4-Pro 以 62.7% 胜率碾压 Gemini-3.1-Pro 的 34.1%，尤其在技术文本、邮件书信等场景优势明显。

复杂指令跟随与多轮对话仍是 DeepSeek-V4 的短板。 报告坦诚在复杂指令跟随上 V4-Pro 以 46.9% 对 53.1% 落后于 Claude Opus 4.5，多轮写作也以 45.6% 对 51.7% 处于劣势。

💬 文章金句

- 它还在长文本生成方面表现出色，能够输出深入且连贯的叙述，而不是像 Opus-4.6-Max 那样，频繁依赖过于简单化的要点列表。

Claude 在中文白领场景里只会打 bullet points，而 DeepSeek 能写真正的长文章、做深度分析、出完整方案。
在推理与代码竞赛方面，V4-Pro-Max 已首次实现开源模型对标闭源前沿。

📊 文章信息

AI 初评：82

来源：PaperAgent

作者：PaperAgent

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2336

标签： DeepSeek-V4, Claude, MoE, 百万 token 上下文, 白领任务

阅读完整文章

现在，连 DeepSeek V4 也开始调侃 Anthropic 的 Claude 了

🤖 問 AI