DeepSeek 又当“价格屠夫”，但这次“屠”的不仅是价格

📌 一句话摘要

DeepSeek V4 预览版发布，通过 CSA/HCA 等架构创新将百万上下文推理成本降至行业最低，但全行业系统性降低 Agentic AI 成本仍面临复杂挑战。

📝 详细摘要

本文是《Token 经济学》系列第六篇，深入分析了 DeepSeek V4 预览版发布背后的定价策略、技术架构与行业影响。文章指出，V4 延续了 DeepSeek 的「价格屠夫」策略，V4-Flash 输入 1 元、输出 2 元/百万 tokens，V4-Pro 输入 12 元、输出 24 元/百万 tokens，且百万上下文成为原生标配。核心技术创新在于 CSA（压缩稀疏注意力）和 HCA（重压缩注意力），将 1M 上下文下的推理 FLOPs 降至 V3.2 的 10%-27%，KV cache 占用降至 7%-10%。文章强调，在 Agent 范式下，一次任务涉及数十次模型调用，成本结构从「单次调用成本」转向「系统级总账单」，缓存命中定价成为关键杠杆。然而，全行业能否跟进降价取决于成本结构、高端算力供给和 Agent 架构优化，V4 的低价是技术红利而非补贴。

💡 主要观点

- DeepSeek V4 通过 CSA/HCA 架构创新，将百万上下文推理成本降至行业最低。 CSA 将 KV 缓存压缩后做 Top-k 稀疏注意力，HCA 进一步极限压缩，使 1M 上下文下 V4-Pro 的 FLOPs 仅为 V3.2 的 27%，KV cache 占用仅 10%，V4-Flash 更激进，FLOPs 降至 10%。

V4 的定价策略从「单次调用成本」转向「Agent 总账单优化」。 缓存命中输入价压至 0.2 元/百万 tokens，百万上下文默认标配，直接降低 Agent 场景中大量重复 system prompt 和历史记忆的累积成本，使规模化运行成为可能。

全行业系统性降低 Agentic AI 成本仍面临三大挑战。 其他厂商受成本结构限制跟进空间有限；V4-Pro 的低价依赖昇腾 950 等国产算力下半年批量部署；Agent 架构本身的 Token 浪费问题仍需优化，否则即使单价降低，糟糕设计仍会导致账单失控。

💬 文章金句

- 在 Agent 范式下，一次任务背后是几十次、上百次模型调用。

DeepSeek V4 把「成本」变成了一个可以被工程优化的变量。
价格从一个静态标价，变成一个与系统设计强相关的变量。
低价是架构成本的自然结果。
技术能跑通，账算不过来。

📊 文章信息

AI 初评：88

来源：腾讯科技

作者：腾讯科技

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4434

标签： DeepSeek V4, 大模型定价, Token经济学, Agentic AI, 稀疏注意力

阅读完整文章

DeepSeek 又当“价格屠夫”，但这次“屠”的不仅是价格

🤖 問 AI