阿里发布 Qwen3.5-Omni，多模态能力超越 Gemini-3.1 Pro

📌 一句话摘要

阿里发布全模态大模型 Qwen3.5-Omni，在音视频理解与交互等 215 项任务中取得 SOTA，性能超越 Gemini-3.1 Pro 且价格极具竞争力。

📝 详细摘要

阿里正式发布新一代全模态大模型 Qwen3.5-Omni。该模型在音视频理解、识别及实时交互等 215 项任务中表现卓越，超越了 Google 的 Gemini-3.1 Pro，成为全球最强的全模态模型之一。其核心优势包括支持 113 种语言方言、极强的音视频结构化描述能力，以及新兴的音视频 Vibe Coding 能力。目前，该模型已通过阿里云百炼平台提供 Plus、Flash、Light 三种 API 版本，且调用成本极低，每百万 tokens 输入不足 0.8 元，仅为竞争对手的十分之一。

💡 主要观点

- Qwen3.5-Omni 在全模态任务中表现强劲，超越 Gemini-3.1 Pro。 在涵盖音视频理解、识别和交互的 215 项任务中取得 SOTA，标志着国产大模型在多模态领域达到全球领先水平。

具备极强的多语言支持与音视频处理能力。 支持 113 种语言和方言，能生成详细且可控的音视频结构化描述，并涌现出音视频 Vibe Coding 能力。

极致的性价比与多版本 API 部署。 提供 Plus、Flash、Light 三种版本，价格仅为 Gemini-3.1 Pro 的十分之一，大幅降低了开发者的使用门槛。

💬 文章金句

- 在音视频理解、识别、交互等 215 项任务中取得 SOTA（性能最佳），超越 Gemini-3.1 Pro。

可识别语言和方言数量多达 113 种，还惊喜地涌现出了音视频 Vibe Coding 能力。
每百万 Tokens 输入不到 0.8 元，比 Gemini-3.1 Pro 的 1/10 还低。

📊 文章信息

AI 评分：88

来源：量子位

作者：量子位的朋友们

分类：人工智能

语言：中文

阅读时间：2 分钟

字数：350

标签： Qwen3.5-Omni, 全模态大模型, 阿里云, 音视频理解, Vibe Coding

阅读完整文章

阿里发布 Qwen3.5-Omni，多模态能力超越 Gemini-3.1 Pro

🤖 問 AI