← 回總覽

DeepSeek 又当“价格屠夫”,但这次“屠”的不仅是价格

📅 2026-04-28 08:28 腾讯科技 人工智能 2 分鐘 1380 字 評分: 88
DeepSeek V4 大模型定价 Token经济学 Agentic AI 稀疏注意力
📌 一句话摘要 DeepSeek V4 预览版发布,通过 CSA/HCA 等架构创新将百万上下文推理成本降至行业最低,但全行业系统性降低 Agentic AI 成本仍面临复杂挑战。 📝 详细摘要 本文是《Token 经济学》系列第六篇,深入分析了 DeepSeek V4 预览版发布背后的定价策略、技术架构与行业影响。文章指出,V4 延续了 DeepSeek 的「价格屠夫」策略,V4-Flash 输入 1 元、输出 2 元/百万 tokens,V4-Pro 输入 12 元、输出 24 元/百万 tokens,且百万上下文成为原生标配。核心技术创新在于 CSA(压缩稀疏注意力)和 HCA(重压

📌 一句话摘要

DeepSeek V4 预览版发布,通过 CSA/HCA 等架构创新将百万上下文推理成本降至行业最低,但全行业系统性降低 Agentic AI 成本仍面临复杂挑战。

📝 详细摘要

本文是《Token 经济学》系列第六篇,深入分析了 DeepSeek V4 预览版发布背后的定价策略、技术架构与行业影响。文章指出,V4 延续了 DeepSeek 的「价格屠夫」策略,V4-Flash 输入 1 元、输出 2 元/百万 tokens,V4-Pro 输入 12 元、输出 24 元/百万 tokens,且百万上下文成为原生标配。核心技术创新在于 CSA(压缩稀疏注意力)和 HCA(重压缩注意力),将 1M 上下文下的推理 FLOPs 降至 V3.2 的 10%-27%,KV cache 占用降至 7%-10%。文章强调,在 Agent 范式下,一次任务涉及数十次模型调用,成本结构从「单次调用成本」转向「系统级总账单」,缓存命中定价成为关键杠杆。然而,全行业能否跟进降价取决于成本结构、高端算力供给和 Agent 架构优化,V4 的低价是技术红利而非补贴。

💡 主要观点

- DeepSeek V4 通过 CSA/HCA 架构创新,将百万上下文推理成本降至行业最低。 CSA 将 KV 缓存压缩后做 Top-k 稀疏注意力,HCA 进一步极限压缩,使 1M 上下文下 V4-Pro 的 FLOPs 仅为 V3.2 的 27%,KV cache 占用仅 10%,V4-Flash 更激进,FLOPs 降至 10%。

V4 的定价策略从「单次调用成本」转向「Agent 总账单优化」。 缓存命中输入价压至 0.2 元/百万 tokens,百万上下文默认标配,直接降低 Agent 场景中大量重复 system prompt 和历史记忆的累积成本,使规模化运行成为可能。
全行业系统性降低 Agentic AI 成本仍面临三大挑战。 其他厂商受成本结构限制跟进空间有限;V4-Pro 的低价依赖昇腾 950 等国产算力下半年批量部署;Agent 架构本身的 Token 浪费问题仍需优化,否则即使单价降低,糟糕设计仍会导致账单失控。

💬 文章金句

- 在 Agent 范式下,一次任务背后是几十次、上百次模型调用。

  • DeepSeek V4 把「成本」变成了一个可以被工程优化的变量。
  • 价格从一个静态标价,变成一个与系统设计强相关的变量。
  • 低价是架构成本的自然结果。
  • 技术能跑通,账算不过来。

📊 文章信息

AI 初评:88

来源:腾讯科技

作者:腾讯科技

分类:人工智能

语言:中文

阅读时间:18 分钟

字数:4434

标签: DeepSeek V4, 大模型定价, Token经济学, Agentic AI, 稀疏注意力

阅读完整文章

查看原文 → 發佈: 2026-04-28 08:28:00 收錄: 2026-04-28 16:00:26

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。