Gemma 4 现已登陆 Google Cloud

📌 一句话摘要

Google Cloud 宣布发布 Gemma 4，这是一个多模态开放模型系列，具有 256K 上下文窗口，并可在 Vertex AI、GKE 和 Cloud Run 上进行广泛部署。

📝 详细摘要

Google 在 Google Cloud 上发布了 Gemma 4，称其为迄今为止能力最强的开放模型系列。Gemma 4 基于 Gemini 3 研究成果构建，采用 Apache 2.0 许可证发布，支持原生视觉和音频处理、140 多种语言以及 256K 上下文窗口。文章详细介绍了其全面的部署生态系统：用于托管服务和微调的 Vertex AI、用于无服务器 GPU 推理（包括支持 NVIDIA Blackwell）的 Cloud Run，以及通过 vLLM 实现高吞吐量服务的 GKE。值得注意的是，它引入了用于安全工具执行的 GKE Agent Sandbox，并通过在 Sovereign Cloud 和气隙（air-gapped）环境中提供支持，强调了数字主权。

💡 主要观点

- Gemma 4 是一个具备顶尖能力的多模态开放模型系列。 源自 Gemini 3，具有 256K 上下文窗口，支持原生视觉/音频，并在宽松的 Apache 2.0 许可证下，擅长处理复杂的逻辑和智能体任务。

多样的部署路径可满足不同的企业需求。 选项涵盖从使用 Blackwell GPU 的 Cloud Run 无服务器推理，到 GKE 上的细粒度基础设施控制，以及 Vertex AI Model Garden 中的全托管端点。

针对 LLM 服务和智能体的高级基础设施优化。 诸如带有预测性延迟提升（Predictive Latency Boost）的 GKE Inference Gateway 等功能可将首字延迟（TTFT）降低 70%，而 Agent Sandbox 则允许安全、隔离地执行 AI 生成的代码。

重点关注数字主权和数据合规性。 Gemma 4 可在 Sovereign Cloud 和 Google Distributed Cloud 中使用，支持在高度敏感、气隙（air-gapped）或受监管的环境中进行部署。

💬 文章金句

- 从每一个字节来看，它都是能力最强的开放模型系列。

Gemma 4 为您提供了这种平衡：企业级 AI 需要能够执行复杂逻辑，同时将数据保持在安全边界内的模型。
带有预测性延迟提升功能的 GKE Inference Gateway 可以通过用实时容量感知路由取代启发式猜测，将首字延迟（TTFT）降低高达 70%。
此次扩展强化了我们对开放、主权数字世界的承诺，即组织能够完全掌控其数据、加密和运营环境。

📊 文章信息

AI 评分：87

来源：Google Cloud Blog

作者：Richard Seroter

分类：人工智能

语言：英文

阅读时间：4 分钟

字数：989

标签： Gemma 4, Google Cloud, 开放模型, 多模态 AI, Vertex AI

阅读完整文章

Gemma 4 现已登陆 Google Cloud

🤖 問 AI