← 回總覽

LLM 近期重大架构进化一览:从 Gemma 4 到 DeepSeek V4

📅 2026-05-19 12:00 机器之心 人工智能 2 分鐘 1884 字 評分: 87
LLM 架构 长上下文 KV Cache Gemma 4 DeepSeek V4
📌 一句话摘要 本文翻译并整理了 Sebastian Raschka 的技术博客,系统梳理了 Gemma 4、Laguna XS.2、ZAYA1-8B 和 DeepSeek V4 等最新 LLM 在降低长上下文推理成本方面的架构创新,包括跨层 KV 共享、分层注意力预算、压缩卷积注意力和流形约束超连接等关键技术。 📝 详细摘要 文章编译自 Sebastian Raschka 的技术博客,聚焦于 2026 年新一代开源 LLM 在架构层面的核心趋势:通过结构级优化降低长上下文推理的计算和存储成本。文章详细分析了四个代表性模型的创新设计:Google Gemma 4 的跨层 KV 共享(Cro

📌 一句话摘要

本文翻译并整理了 Sebastian Raschka 的技术博客,系统梳理了 Gemma 4、Laguna XS.2、ZAYA1-8B 和 DeepSeek V4 等最新 LLM 在降低长上下文推理成本方面的架构创新,包括跨层 KV 共享、分层注意力预算、压缩卷积注意力和流形约束超连接等关键技术。

📝 详细摘要

文章编译自 Sebastian Raschka 的技术博客,聚焦于 2026 年新一代开源 LLM 在架构层面的核心趋势:通过结构级优化降低长上下文推理的计算和存储成本。文章详细分析了四个代表性模型的创新设计:Google Gemma 4 的跨层 KV 共享(Cross-Layer Attention)和逐层嵌入(PLE)机制,可节省约 50% 的 KV Cache 显存;Poolside Laguna XS.2 的逐层注意力预算(Layer-wise Attention Budgeting),为不同层分配不同数量的 Query Head;Zyphra ZAYA1-8B 的压缩卷积注意力(CCA),在压缩后的潜在空间中直接完成 Attention 计算,并辅以卷积混合提升表达能力;DeepSeek V4 的流形约束超连接(mHC)和压缩稀疏注意力(CSA)/ 高度压缩注意力(HCA)混合架构,在 1M Token 上下文下将推理 FLOPs 降至 V3.2 的 27%,KV Cache 降至 10%。文章指出,Transformer 架构正变得越来越复杂和定向化,但这些复杂化的目的是为了实现真正高效的超长上下文推理。

💡 主要观点

- 新一代 LLM 架构的核心趋势是通过结构级优化降低长上下文推理成本。 从 Gemma 4 到 DeepSeek V4,模型不再单纯依赖扩大参数量,而是通过跨层 KV 共享、压缩注意力、分层预算等机制,在保持模型质量的同时显著降低计算和存储开销。

Gemma 4 的跨层 KV 共享和 PLE 机制分别从显存和参数效率两个维度优化。 跨层 KV 共享通过复用相邻层的 Key-Value 张量,可节省约 50% 的 KV Cache 显存;PLE 则通过为每层添加独立的 token 嵌入向量,在不显著增加计算量的前提下提升小模型的表达能力。
DeepSeek V4 的 CSA/HCA 混合注意力架构实现了极致的上下文压缩。 CSA 采用轻量压缩结合稀疏选择,HCA 则对每 128 个 token 压缩为一个 KV Entry 进行密集注意力,两者交替使用,在 1M Token 上下文下将推理 FLOPs 降至 V3.2 的 27%,KV Cache 降至 10%。
Transformer 架构正变得越来越复杂,但目的始终是服务于超长上下文推理。 从 GPT-2 到 DeepSeek V4,Attention 变体的代码复杂度增长了约 10 倍,但这些复杂化的核心目标并非增加成本,而是实现真正高效的长上下文推理,同时理解各组件之间的相互作用也变得更加困难。

💬 文章金句

- 长上下文越来越贵,新 LLM 架构怎么「省钱」?

  • 当前 LLM 架构设计中的一个核心主题,就是「缩小 KV Cache」。
  • Transformer Block 仍然在持续演化,但这种变化已经变得越来越定向化。
  • 这些复杂化的目的并不是增加成本,而是为了实现真正的超长上下文推理。
  • 理解这些组件本身,以及它们之间如何相互作用,也正在变得越来越困难。

📊 文章信息

AI 初评:87

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:35 分钟

字数:8585

标签: LLM 架构, 长上下文, KV Cache, Gemma 4, DeepSeek V4

阅读完整文章

查看原文 → 發佈: 2026-05-19 12:00:00 收錄: 2026-05-19 20:00:06

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。