← 回總覽

阿里发布 Qwen3.5-Omni,多模态能力超越 Gemini-3.1 Pro

📅 2026-03-30 22:21 量子位的朋友们 人工智能 1 分鐘 1102 字 評分: 88
Qwen3.5-Omni 全模态大模型 阿里云 音视频理解 Vibe Coding
📌 一句话摘要 阿里发布全模态大模型 Qwen3.5-Omni,在音视频理解与交互等 215 项任务中取得 SOTA,性能超越 Gemini-3.1 Pro 且价格极具竞争力。 📝 详细摘要 阿里正式发布新一代全模态大模型 Qwen3.5-Omni。该模型在音视频理解、识别及实时交互等 215 项任务中表现卓越,超越了 Google 的 Gemini-3.1 Pro,成为全球最强的全模态模型之一。其核心优势包括支持 113 种语言方言、极强的音视频结构化描述能力,以及新兴的音视频 Vibe Coding 能力。目前,该模型已通过阿里云百炼平台提供 Plus、Flash、Light 三种 A

📌 一句话摘要

阿里发布全模态大模型 Qwen3.5-Omni,在音视频理解与交互等 215 项任务中取得 SOTA,性能超越 Gemini-3.1 Pro 且价格极具竞争力。

📝 详细摘要

阿里正式发布新一代全模态大模型 Qwen3.5-Omni。该模型在音视频理解、识别及实时交互等 215 项任务中表现卓越,超越了 Google 的 Gemini-3.1 Pro,成为全球最强的全模态模型之一。其核心优势包括支持 113 种语言方言、极强的音视频结构化描述能力,以及新兴的音视频 Vibe Coding 能力。目前,该模型已通过阿里云百炼平台提供 Plus、Flash、Light 三种 API 版本,且调用成本极低,每百万 tokens 输入不足 0.8 元,仅为竞争对手的十分之一。

💡 主要观点

- Qwen3.5-Omni 在全模态任务中表现强劲,超越 Gemini-3.1 Pro。 在涵盖音视频理解、识别和交互的 215 项任务中取得 SOTA,标志着国产大模型在多模态领域达到全球领先水平。

具备极强的多语言支持与音视频处理能力。 支持 113 种语言和方言,能生成详细且可控的音视频结构化描述,并涌现出音视频 Vibe Coding 能力。
极致的性价比与多版本 API 部署。 提供 Plus、Flash、Light 三种版本,价格仅为 Gemini-3.1 Pro 的十分之一,大幅降低了开发者的使用门槛。

💬 文章金句

- 在音视频理解、识别、交互等 215 项任务中取得 SOTA(性能最佳),超越 Gemini-3.1 Pro。

  • 可识别语言和方言数量多达 113 种,还惊喜地涌现出了音视频 Vibe Coding 能力。
  • 每百万 Tokens 输入不到 0.8 元,比 Gemini-3.1 Pro 的 1/10 还低。

📊 文章信息

AI 评分:88

来源:量子位

作者:量子位的朋友们

分类:人工智能

语言:中文

阅读时间:2 分钟

字数:350

标签: Qwen3.5-Omni, 全模态大模型, 阿里云, 音视频理解, Vibe Coding

阅读完整文章

查看原文 → 發佈: 2026-03-30 22:21:45 收錄: 2026-03-31 00:00:14

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。