Google DeepMind 发布了 Gemini 3.1 Flash Live,这是一款针对实时、自然语音交互进行优化的高质量音频模型,具备增强的推理能力和多步函数调用功能。
📝 详细摘要
Gemini 3.1 Flash Live 代表了实时对话 AI 的重大进步,专注于速度、自然节奏和可靠性。该模型在复杂推理方面表现出色,以 90.8% 的得分在 ComplexFuncBench Audio 基准测试中处于领先地位。它引入了改进的语调理解能力,能够识别音高和语速,从而对用户的挫败感做出更具同理心的回应。对于开发者而言,它可通过 Gemini Live API 使用,支持稳健的任务执行,且对话线程长度是之前版本的两倍。安全性方面,所有生成的音频都集成了 SynthID 水印。
💡 主要观点
- 音频任务中的顶尖推理能力。 该模型在 ComplexFuncBench Audio 上取得了 90.8% 的得分,展示了其在多步函数调用和复杂指令遵循方面的卓越能力。
💬 文章金句
- 它提供了下一代语音优先 AI 所需的速度和自然节奏。
- 在 ComplexFuncBench Audio 上……它以 90.8% 的得分领先于我们之前的模型。
- 与之前的模型相比,Gemini Live 提供了更快的响应,并且能够跟踪您的对话线程的时间是其两倍。
- 所有由 3.1 Flash Live 生成的音频都带有 SynthID 水印……从而可以可靠地检测 AI 生成的内容。
📊 文章信息
AI 评分:91
来源:Google DeepMind Blog
作者:Valeria Wu
分类:人工智能
语言:英文
阅读时间:3 分钟
字数:635
标签: Gemini 3.1 Flash Live, 音频 AI, 语音模型, 实时 AI, 函数调用