LLM 近期重大架构进化一览：从 Gemma 4 到 DeepSeek V4

📌 一句话摘要

本文翻译并整理了 Sebastian Raschka 的技术博客，系统梳理了 Gemma 4、Laguna XS.2、ZAYA1-8B 和 DeepSeek V4 等最新 LLM 在降低长上下文推理成本方面的架构创新，包括跨层 KV 共享、分层注意力预算、压缩卷积注意力和流形约束超连接等关键技术。

📝 详细摘要

文章编译自 Sebastian Raschka 的技术博客，聚焦于 2026 年新一代开源 LLM 在架构层面的核心趋势：通过结构级优化降低长上下文推理的计算和存储成本。文章详细分析了四个代表性模型的创新设计：Google Gemma 4 的跨层 KV 共享（Cross-Layer Attention）和逐层嵌入（PLE）机制，可节省约 50% 的 KV Cache 显存；Poolside Laguna XS.2 的逐层注意力预算（Layer-wise Attention Budgeting），为不同层分配不同数量的 Query Head；Zyphra ZAYA1-8B 的压缩卷积注意力（CCA），在压缩后的潜在空间中直接完成 Attention 计算，并辅以卷积混合提升表达能力；DeepSeek V4 的流形约束超连接（mHC）和压缩稀疏注意力（CSA）/ 高度压缩注意力（HCA）混合架构，在 1M Token 上下文下将推理 FLOPs 降至 V3.2 的 27%，KV Cache 降至 10%。文章指出，Transformer 架构正变得越来越复杂和定向化，但这些复杂化的目的是为了实现真正高效的超长上下文推理。

💡 主要观点

- 新一代 LLM 架构的核心趋势是通过结构级优化降低长上下文推理成本。 从 Gemma 4 到 DeepSeek V4，模型不再单纯依赖扩大参数量，而是通过跨层 KV 共享、压缩注意力、分层预算等机制，在保持模型质量的同时显著降低计算和存储开销。

Gemma 4 的跨层 KV 共享和 PLE 机制分别从显存和参数效率两个维度优化。 跨层 KV 共享通过复用相邻层的 Key-Value 张量，可节省约 50% 的 KV Cache 显存；PLE 则通过为每层添加独立的 token 嵌入向量，在不显著增加计算量的前提下提升小模型的表达能力。

DeepSeek V4 的 CSA/HCA 混合注意力架构实现了极致的上下文压缩。 CSA 采用轻量压缩结合稀疏选择，HCA 则对每 128 个 token 压缩为一个 KV Entry 进行密集注意力，两者交替使用，在 1M Token 上下文下将推理 FLOPs 降至 V3.2 的 27%，KV Cache 降至 10%。

Transformer 架构正变得越来越复杂，但目的始终是服务于超长上下文推理。 从 GPT-2 到 DeepSeek V4，Attention 变体的代码复杂度增长了约 10 倍，但这些复杂化的核心目标并非增加成本，而是实现真正高效的长上下文推理，同时理解各组件之间的相互作用也变得更加困难。

💬 文章金句

- 长上下文越来越贵，新 LLM 架构怎么「省钱」？

当前 LLM 架构设计中的一个核心主题，就是「缩小 KV Cache」。
Transformer Block 仍然在持续演化，但这种变化已经变得越来越定向化。
这些复杂化的目的并不是增加成本，而是为了实现真正的超长上下文推理。
理解这些组件本身，以及它们之间如何相互作用，也正在变得越来越困难。

📊 文章信息

AI 初评：87

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：35 分钟

字数：8585

标签： LLM 架构, 长上下文, KV Cache, Gemma 4, DeepSeek V4

阅读完整文章

LLM 近期重大架构进化一览：从 Gemma 4 到 DeepSeek V4

🤖 問 AI