本文通过硅谷芯片架构师和前 OpenAI 研究员的对话,分析了 DeepSeek V4 在 token 效率上的突破如何对硅谷 AI 公司形成竞争压力,并探讨了 Anthropic 反超 OpenAI 的原因、硅谷资本效率问题以及芯片格局的变化。
📝 详细摘要
本文整理自 B 站连线节目「硅谷 101」的讨论内容,邀请芯片架构师肖志斌和前 OpenAI 研究员 Jenny Xiao,围绕 DeepSeek V4 发布后的行业影响展开深度分析。文章核心观点包括:DeepSeek V4 通过 CSA/HCA 混合注意力、mHC 流形约束超连接和 Muon 优化器实现了显著的 token 效率提升,这给硅谷闭源模型公司画出了「死亡线」;硅谷 AI 公司因资本充裕反而缺乏效率优化动力,给了 DeepSeek 可乘之机;Anthropic 凭借 Claude Code、企业信任和专注战略反超 OpenAI 估值至 1 万亿美元;英伟达在推理市场的地位面临松动,非英伟达芯片(包括国产芯片)有了承接推理 workload 的空间。文章还预告了当晚华为昇腾技术专场直播。
💡 主要观点
- DeepSeek V4 的核心突破在于 token 效率,而非模型能力全面超越。 V4 通过 CSA/HCA 混合注意力、mHC 流形约束超连接和 Muon 优化器,将长上下文 attention 成本从平方关系压下来,实现了显著的推理成本降低,迫使所有模型厂商必须回答如何提高 token 效率。
💬 文章金句
- 没有效率,AGI 只能是个 demo。有了效率,AGI 才能成为真正的产品和基础设施。
- DeepSeek 像一把抵在硅谷模型公司背后的枪。这些公司如果跑得不够快,DeepSeek 会追上来,把它们的业务彻底摧毁。
- 硅谷 AI 公司钱太多,导致没有动力去思考效率,反而给了 DeepSeek 优势。
- 每一次工业革命中,重要的不仅仅是技术有多好,还在于技术有多便宜。能推动变革的技术,是那些便宜到足以让人们使用的技术。
- AI 公司的估值是二元的,基础模型公司的存在理由就是模型最强。一旦不再最强,被开源模型超越,估值就归零。
📊 文章信息
AI 初评:86
来源:赛博禅心
作者:赛博禅心
分类:人工智能
语言:中文
阅读时间:19 分钟
字数:4750
标签: DeepSeek V4, 硅谷, AI 效率, Anthropic, OpenAI