120 亿参数跑在 16G 笔记本上，谷歌 Gemma 4 新成员杀来了

📌 一句话摘要

谷歌发布 Gemma 4 12B 模型，在 16GB 显存笔记本上即可本地运行，性能接近更大的 26B MoE 模型，并首次支持原生音频输入。

📝 详细摘要

文章报道了谷歌正式推出 Gemma 4 12B 模型的消息。该模型是 Gemma 4 系列的新成员，定位介于边缘设备模型与 26B MoE 模型之间，旨在将具备智能体能力的多模态 AI 带到笔记本电脑上。文章介绍了其核心特性：采用无编码器的统一架构，直接处理视觉和音频输入；在多项基准测试中性能接近 26B 模型，但内存占用不到后者一半；仅需 16GB 显存即可在消费级笔记本上本地运行；采用 Apache 2.0 许可证开放。文章还引用了第三方在 RTX 4090 上的实测数据，对比了 12B 与 26B 模型在生成 HTML5 Canvas 动画任务中的显存占用与推理速度，并解释了其精简的多模态处理方式。

💡 主要观点

- Gemma 4 12B 定位为可在 16GB 笔记本上本地运行的多模态模型。 该模型在性能接近 26B MoE 模型的同时，显存占用不到后者一半，使得在消费级设备上运行强大的 AI 模型成为可能。

采用无编码器架构，原生处理视觉和音频输入。 谷歌移除了传统的独立多模态编码器，让视觉和音频输入直接整合进 LLM 主干网络，降低了延迟和内存占用。

在多项基准测试中表现接近更大的 26B 模型。 在 GPQA Diamond、MMLU Pro、LiveCode Bench 等测试中，12B 模型展现了与 26B 模型相近的推理和多模态能力。

💬 文章金句

- 对于这样一个小尺寸模型来说，它的能力非常强大；同时，它也足够轻量，只需 16GB 显存，就能在笔记本电脑上本地运行。

传统多模态模型通常依赖独立编码器...但这些分离式编码器会带来额外延迟，也会增加内存占用。因此，谷歌在训练 Gemma 4 12B 时采用了无编码器架构。

📊 文章信息

AI 初评：82

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：6 分钟

字数：1384

标签：模型发布, LLM, 多模态 AI, AI 硬件与芯片, 开源项目

阅读完整文章

120 亿参数跑在 16G 笔记本上，谷歌 Gemma 4 新成员杀来了

🤖 問 AI