Google DeepMind 的 Philipp Schmid 宣布了 Gemini API 的新服务层级 —— Flex 和 Priority,开发者只需更改一行代码即可优化成本和可靠性。
📝 详细摘要
Google 为 Gemini API 引入了两个全新的服务层级:Flex 和 Priority。Flex 推理(Flex Inference)为对延迟不敏感的工作负载提供 50% 的成本减免,且无需进行繁琐的批处理文件管理。Priority 推理(Priority Inference)专为关键应用设计,在流量溢出时可自动回退至标准(Standard)层级,从而提供更高的可靠性。这些更新可以通过在 GenerateContent 和 Interactions API 中简单修改 service_tier 参数来实现。
📊 文章信息
AI 评分:88
来源:Philipp Schmid(@_philschmid)
作者:Philipp Schmid
分类:人工智能
语言:英文
阅读时间:2 分钟
字数:491
标签: Gemini API, Google DeepMind, LLMOps, 云计算, 成本优化