Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

📌 一句话摘要

Google DeepMind 发布了 Gemini 3.1 Flash Live，这是一款针对实时、自然语音交互进行优化的高质量音频模型，具备增强的推理能力和多步函数调用功能。

📝 详细摘要

Gemini 3.1 Flash Live 代表了实时对话 AI 的重大进步，专注于速度、自然节奏和可靠性。该模型在复杂推理方面表现出色，以 90.8% 的得分在 ComplexFuncBench Audio 基准测试中处于领先地位。它引入了改进的语调理解能力，能够识别音高和语速，从而对用户的挫败感做出更具同理心的回应。对于开发者而言，它可通过 Gemini Live API 使用，支持稳健的任务执行，且对话线程长度是之前版本的两倍。安全性方面，所有生成的音频都集成了 SynthID 水印。

💡 主要观点

- 音频任务中的顶尖推理能力。 该模型在 ComplexFuncBench Audio 上取得了 90.8% 的得分，展示了其在多步函数调用和复杂指令遵循方面的卓越能力。

增强的情感和语调智能。 通过识别音高和语速等声学细微差别，模型可以根据用户表达的挫败感或困惑调整其回应，使交互更加自然。

显著的性能和上下文改进。 Gemini 3.1 Flash Live 提供了更快的响应时间，并且能够保持对话线程的时间是其前身的两倍。

集成的安全性和全球可访问性。 该模型包含用于内容溯源的 SynthID 水印，并通过 Search Live 支持 200 多个国家的多种语言交互。

💬 文章金句

- 它提供了下一代语音优先 AI 所需的速度和自然节奏。

在 ComplexFuncBench Audio 上……它以 90.8% 的得分领先于我们之前的模型。
与之前的模型相比，Gemini Live 提供了更快的响应，并且能够跟踪您的对话线程的时间是其两倍。
所有由 3.1 Flash Live 生成的音频都带有 SynthID 水印……从而可以可靠地检测 AI 生成的内容。

📊 文章信息

AI 评分：91

来源：Google DeepMind Blog

作者：Valeria Wu

分类：人工智能

语言：英文

阅读时间：3 分钟

字数：635

标签： Gemini 3.1 Flash Live, 音频 AI, 语音模型, 实时 AI, 函数调用

阅读完整文章

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

🤖 問 AI