← 回總覽

[AI 新闻] Gemma 4:最强小型多模态开源模型,在各方面均大幅超越 Gemma 3

📅 2026-04-03 15:02 Latent.Space 人工智能 2 分鐘 1504 字 評分: 92
Gemma 4 Google DeepMind 开源 AI 多模态 LLM Apache 2.0
📌 一句话摘要 Google DeepMind 发布了 Gemma 4,这是一系列采用 Apache 2.0 许可的多模态开放权重模型,具备原生音频/视频支持,并采用了高度优化的非标准 Transformer 架构。 📝 详细摘要 本期 AINews 聚焦于 Google 迄今为止最重要的开源模型更新——Gemma 4 的发布。这些模型涵盖从 31B 密集型到边缘优化型(E4B、E2B)的多种规格,现采用宽松的 Apache 2.0 许可。Gemma 4 引入了原生多模态能力,包括视频和音频处理,并在 LMSYS Arena 等开放权重排行榜上名列前茅。本文深入探讨了其独特的架构,包括混合

📌 一句话摘要

Google DeepMind 发布了 Gemma 4,这是一系列采用 Apache 2.0 许可的多模态开放权重模型,具备原生音频/视频支持,并采用了高度优化的非标准 Transformer 架构。

📝 详细摘要

本期 AINews 聚焦于 Google 迄今为止最重要的开源模型更新——Gemma 4 的发布。这些模型涵盖从 31B 密集型到边缘优化型(E4B、E2B)的多种规格,现采用宽松的 Apache 2.0 许可。Gemma 4 引入了原生多模态能力,包括视频和音频处理,并在 LMSYS Arena 等开放权重排行榜上名列前茅。本文深入探讨了其独特的架构,包括混合注意力机制、逐层嵌入(per-layer embeddings)和专门的 MoE 分层。此外,文章还强调了 llama.cpp 和 vLLM 等工具提供的即时生态支持,以及其他行业新闻,如 Anthropic 关于情感向量的可解释性研究和 OpenAI 的 CarPlay 集成。

💡 主要观点

- Gemma 4 转为 Apache 2.0 许可,显著降低了商业应用的门槛。 这种从以往限制性 Gemma 许可的转变,使得这些模型对企业和社区驱动的商业应用极具吸引力。

该模型具备原生多模态特性,支持可变分辨率图像、视频和音频输入。 Gemma 4 在 OCR 和图表理解等视觉任务中表现出色,其边缘版本(E2B/E4B)专门针对端侧多模态处理进行了优化。
混合 5:1 本地/全局注意力机制和逐层嵌入等架构创新使 Gemma 4 脱颖而出。 该架构被描述为“非标准 Transformer”,利用滑动窗口注意力、QK/V 归一化,并将 MoE 模块作为独立层添加以最大化效率。
基准测试性能显示,31B 模型可与万亿参数模型相媲美。 Gemma 4 31B 在开放排行榜上与 Kimi K2.5 和 GLM-5 等规模大得多的模型并驾齐驱,展示了极高的参数效率和改进的推理能力。
llama.cpp 和 Ollama 等工具提供的 Day-0 生态支持,实现了即时的本地部署。 vLLM 和 LM Studio 等推理栈的快速适配,确保开发者在发布后即可立即将 Gemma 4 集成到智能体工作流中。

💬 文章金句

- Gemma 4 是 Google 一年来在开放权重许可和能力提升方面最大的动作。

  • 31B 密集型版本与 Kimi K2.5 和 Z.ai GLM-5 并列为全球顶级开源模型,但总参数量要少得多。
  • Gemma 4 架构笔记:混合注意力、MoE 分层选择以及效率技巧……这绝非标准的 Transformer。
  • 以开源模型作为智能体引擎已成为主流定位。

📊 文章信息

AI 评分:92

来源:Latent Space

作者:Latent.Space

分类:人工智能

语言:英文

阅读时间:6 分钟

字数:1418

标签: Gemma 4, Google DeepMind, 开源 AI, 多模态 LLM, Apache 2.0

阅读完整文章

查看原文 → 發佈: 2026-04-03 15:02:48 收錄: 2026-04-03 16:00:45

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。