本文翻译并整理了 Sebastian Raschka 的技术博客,系统梳理了 Gemma 4、Laguna XS.2、ZAYA1-8B 和 DeepSeek V4 等最新 LLM 在降低长上下文推理成本方面的架构创新,包括跨层 KV 共享、分层注意力预算、压缩卷积注意力和流形约束超连接等关键技术。
📝 详细摘要
文章编译自 Sebastian Raschka 的技术博客,聚焦于 2026 年新一代开源 LLM 在架构层面的核心趋势:通过结构级优化降低长上下文推理的计算和存储成本。文章详细分析了四个代表性模型的创新设计:Google Gemma 4 的跨层 KV 共享(Cross-Layer Attention)和逐层嵌入(PLE)机制,可节省约 50% 的 KV Cache 显存;Poolside Laguna XS.2 的逐层注意力预算(Layer-wise Attention Budgeting),为不同层分配不同数量的 Query Head;Zyphra ZAYA1-8B 的压缩卷积注意力(CCA),在压缩后的潜在空间中直接完成 Attention 计算,并辅以卷积混合提升表达能力;DeepSeek V4 的流形约束超连接(mHC)和压缩稀疏注意力(CSA)/ 高度压缩注意力(HCA)混合架构,在 1M Token 上下文下将推理 FLOPs 降至 V3.2 的 27%,KV Cache 降至 10%。文章指出,Transformer 架构正变得越来越复杂和定向化,但这些复杂化的目的是为了实现真正高效的超长上下文推理。
💡 主要观点
- 新一代 LLM 架构的核心趋势是通过结构级优化降低长上下文推理成本。 从 Gemma 4 到 DeepSeek V4,模型不再单纯依赖扩大参数量,而是通过跨层 KV 共享、压缩注意力、分层预算等机制,在保持模型质量的同时显著降低计算和存储开销。
💬 文章金句
- 长上下文越来越贵,新 LLM 架构怎么「省钱」?
- 当前 LLM 架构设计中的一个核心主题,就是「缩小 KV Cache」。
- Transformer Block 仍然在持续演化,但这种变化已经变得越来越定向化。
- 这些复杂化的目的并不是增加成本,而是为了实现真正的超长上下文推理。
- 理解这些组件本身,以及它们之间如何相互作用,也正在变得越来越困难。
📊 文章信息
AI 初评:87
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:35 分钟
字数:8585
标签: LLM 架构, 长上下文, KV Cache, Gemma 4, DeepSeek V4