阿里发布全模态大模型 Qwen3.5-Omni,在音视频理解与交互等 215 项任务中取得 SOTA,性能超越 Gemini-3.1 Pro 且价格极具竞争力。
📝 详细摘要
阿里正式发布新一代全模态大模型 Qwen3.5-Omni。该模型在音视频理解、识别及实时交互等 215 项任务中表现卓越,超越了 Google 的 Gemini-3.1 Pro,成为全球最强的全模态模型之一。其核心优势包括支持 113 种语言方言、极强的音视频结构化描述能力,以及新兴的音视频 Vibe Coding 能力。目前,该模型已通过阿里云百炼平台提供 Plus、Flash、Light 三种 API 版本,且调用成本极低,每百万 tokens 输入不足 0.8 元,仅为竞争对手的十分之一。
💡 主要观点
- Qwen3.5-Omni 在全模态任务中表现强劲,超越 Gemini-3.1 Pro。 在涵盖音视频理解、识别和交互的 215 项任务中取得 SOTA,标志着国产大模型在多模态领域达到全球领先水平。
💬 文章金句
- 在音视频理解、识别、交互等 215 项任务中取得 SOTA(性能最佳),超越 Gemini-3.1 Pro。
- 可识别语言和方言数量多达 113 种,还惊喜地涌现出了音视频 Vibe Coding 能力。
- 每百万 Tokens 输入不到 0.8 元,比 Gemini-3.1 Pro 的 1/10 还低。
📊 文章信息
AI 评分:88
来源:量子位
作者:量子位的朋友们
分类:人工智能
语言:中文
阅读时间:2 分钟
字数:350
标签: Qwen3.5-Omni, 全模态大模型, 阿里云, 音视频理解, Vibe Coding