Google Gemini API 推出 Flex 和 Priority 服务层级

📅 2026-04-08 23:51 Philipp Schmid 人工智能 1 分鐘 664 字評分: 88

📌 一句话摘要 Google DeepMind 的 Philipp Schmid 宣布了 Gemini API 的新服务层级 —— Flex 和 Priority，开发者只需更改一行代码即可优化成本和可靠性。 📝 详细摘要 Google 为 Gemini API 引入了两个全新的服务层级：Flex 和 Priority。Flex 推理（Flex Inference）为对延迟不敏感的工作负载提供 50% 的成本减免，且无需进行繁琐的批处理文件管理。Priority 推理（Priority Inference）专为关键应用设计，在流量溢出时可自动回退至标准（Standard）层级，从而提供更高

📌 一句话摘要

Google DeepMind 的 Philipp Schmid 宣布了 Gemini API 的新服务层级 —— Flex 和 Priority，开发者只需更改一行代码即可优化成本和可靠性。

📝 详细摘要

Google 为 Gemini API 引入了两个全新的服务层级：Flex 和 Priority。Flex 推理（Flex Inference）为对延迟不敏感的工作负载提供 50% 的成本减免，且无需进行繁琐的批处理文件管理。Priority 推理（Priority Inference）专为关键应用设计，在流量溢出时可自动回退至标准（Standard）层级，从而提供更高的可靠性。这些更新可以通过在 GenerateContent 和 Interactions API 中简单修改 service_tier 参数来实现。

📊 文章信息

AI 评分：88

来源：Philipp Schmid(@_philschmid)

作者：Philipp Schmid

分类：人工智能

语言：英文

阅读时间：2 分钟

字数：491

标签： Gemini API, Google DeepMind, LLMOps, 云计算, 成本优化

阅读推文

查看原文 → 發佈: 2026-04-08 23:51:08 收錄: 2026-04-09 02:00:30

Google Gemini API 推出 Flex 和 Priority 服务层级

🤖 問 AI