[AI 新闻] Gemma 4：最强小型多模态开源模型，在各方面均大幅超越 Gemma 3

📌 一句话摘要

Google DeepMind 发布了 Gemma 4，这是一系列采用 Apache 2.0 许可的多模态开放权重模型，具备原生音频/视频支持，并采用了高度优化的非标准 Transformer 架构。

📝 详细摘要

本期 AINews 聚焦于 Google 迄今为止最重要的开源模型更新——Gemma 4 的发布。这些模型涵盖从 31B 密集型到边缘优化型（E4B、E2B）的多种规格，现采用宽松的 Apache 2.0 许可。Gemma 4 引入了原生多模态能力，包括视频和音频处理，并在 LMSYS Arena 等开放权重排行榜上名列前茅。本文深入探讨了其独特的架构，包括混合注意力机制、逐层嵌入（per-layer embeddings）和专门的 MoE 分层。此外，文章还强调了 llama.cpp 和 vLLM 等工具提供的即时生态支持，以及其他行业新闻，如 Anthropic 关于情感向量的可解释性研究和 OpenAI 的 CarPlay 集成。

💡 主要观点

- Gemma 4 转为 Apache 2.0 许可，显著降低了商业应用的门槛。 这种从以往限制性 Gemma 许可的转变，使得这些模型对企业和社区驱动的商业应用极具吸引力。

该模型具备原生多模态特性，支持可变分辨率图像、视频和音频输入。 Gemma 4 在 OCR 和图表理解等视觉任务中表现出色，其边缘版本（E2B/E4B）专门针对端侧多模态处理进行了优化。

混合 5:1 本地/全局注意力机制和逐层嵌入等架构创新使 Gemma 4 脱颖而出。 该架构被描述为“非标准 Transformer”，利用滑动窗口注意力、QK/V 归一化，并将 MoE 模块作为独立层添加以最大化效率。

基准测试性能显示，31B 模型可与万亿参数模型相媲美。 Gemma 4 31B 在开放排行榜上与 Kimi K2.5 和 GLM-5 等规模大得多的模型并驾齐驱，展示了极高的参数效率和改进的推理能力。

llama.cpp 和 Ollama 等工具提供的 Day-0 生态支持，实现了即时的本地部署。 vLLM 和 LM Studio 等推理栈的快速适配，确保开发者在发布后即可立即将 Gemma 4 集成到智能体工作流中。

💬 文章金句

- Gemma 4 是 Google 一年来在开放权重许可和能力提升方面最大的动作。

31B 密集型版本与 Kimi K2.5 和 Z.ai GLM-5 并列为全球顶级开源模型，但总参数量要少得多。
Gemma 4 架构笔记：混合注意力、MoE 分层选择以及效率技巧……这绝非标准的 Transformer。
以开源模型作为智能体引擎已成为主流定位。

📊 文章信息

AI 评分：92

来源：Latent Space

作者：Latent.Space

分类：人工智能

语言：英文

阅读时间：6 分钟

字数：1418

标签： Gemma 4, Google DeepMind, 开源 AI, 多模态 LLM, Apache 2.0

阅读完整文章

[AI 新闻] Gemma 4：最强小型多模态开源模型，在各方面均大幅超越 Gemma 3

🤖 問 AI