DeepSeek V4 预览版发布,通过 CSA/HCA 等架构创新将百万上下文推理成本降至行业最低,但全行业系统性降低 Agentic AI 成本仍面临复杂挑战。
📝 详细摘要
本文是《Token 经济学》系列第六篇,深入分析了 DeepSeek V4 预览版发布背后的定价策略、技术架构与行业影响。文章指出,V4 延续了 DeepSeek 的「价格屠夫」策略,V4-Flash 输入 1 元、输出 2 元/百万 tokens,V4-Pro 输入 12 元、输出 24 元/百万 tokens,且百万上下文成为原生标配。核心技术创新在于 CSA(压缩稀疏注意力)和 HCA(重压缩注意力),将 1M 上下文下的推理 FLOPs 降至 V3.2 的 10%-27%,KV cache 占用降至 7%-10%。文章强调,在 Agent 范式下,一次任务涉及数十次模型调用,成本结构从「单次调用成本」转向「系统级总账单」,缓存命中定价成为关键杠杆。然而,全行业能否跟进降价取决于成本结构、高端算力供给和 Agent 架构优化,V4 的低价是技术红利而非补贴。
💡 主要观点
- DeepSeek V4 通过 CSA/HCA 架构创新,将百万上下文推理成本降至行业最低。 CSA 将 KV 缓存压缩后做 Top-k 稀疏注意力,HCA 进一步极限压缩,使 1M 上下文下 V4-Pro 的 FLOPs 仅为 V3.2 的 27%,KV cache 占用仅 10%,V4-Flash 更激进,FLOPs 降至 10%。
💬 文章金句
- 在 Agent 范式下,一次任务背后是几十次、上百次模型调用。
- DeepSeek V4 把「成本」变成了一个可以被工程优化的变量。
- 价格从一个静态标价,变成一个与系统设计强相关的变量。
- 低价是架构成本的自然结果。
- 技术能跑通,账算不过来。
📊 文章信息
AI 初评:88
来源:腾讯科技
作者:腾讯科技
分类:人工智能
语言:中文
阅读时间:18 分钟
字数:4434
标签: DeepSeek V4, 大模型定价, Token经济学, Agentic AI, 稀疏注意力