快手开源 Keye-VL-2.0-30B-A3B 多模态大模型,率先将 DeepSeek 的 DSA 稀疏注意力引入多模态场景,以 30B 总参、3B 激活参数实现视频理解 SOTA,多项基准超越 200B+ 开源模型。
📝 详细摘要
本文介绍了快手正式开源的新版多模态大模型 Keye-VL-2.0-30B-A3B。该模型的核心创新在于率先将 DeepSeek 的 DSA(DeepSeek Sparse Attention)稀疏注意力机制引入多模态场景,实现了 256K 超长上下文能力,并将长序列 Prefill 成本降低 50%。模型采用总参数 30B、推理时仅激活 3B 的 MoE 架构,在 VideoMME V2、LongVideoBench、MLVU 等多项视频理解基准上达到 30B 级别 SOTA,并超越多个 200B+ 开源模型。文章详细展示了模型在长视频理解(如工艺拆解、纪录片叙事解构)、高光时刻提取、Agent 任务调度等方面的能力,并介绍了克服灾难性遗忘的 MOPD 技术和提升推理可靠性的 Context-RL 机制。最后提供了基于 SGLang 的模型部署和调用示例。
💡 主要观点
- Keye-VL-2.0 率先将 DSA 稀疏注意力引入多模态,实现高效长视频理解。 通过 DSA 结合稀疏注意力与特征聚合,模型在处理小时级视频时能有效提纯信息,长序列 Prefill 成本降低 50%,为超长视频的落地提供了低成本方案。
💬 文章金句
- Keye-VL-2.0-30B-A3B 率先在多模态场景中应用 DSA,结合稀疏注意力与特征聚合,在处理小时级视频序列时有效进行信息提纯,精准捕捉关键帧并理清动态规律。
- 引入 DSA 后,长序列 Prefill 成本降低 50%。
- VideoMME V2 业界普遍面临'输入帧数越多,注意力越稀释、准确率越低'的问题。Keye-VL-2.0-30B-A3B 扭转了这一趋势。
- Keye 系列首次在多模态基座中内建 Agent 协作机制,面对复杂的多步任务,构建了稳定可靠的自动化调度能力。
📊 文章信息
AI 初评:88
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3715
标签: 快手, Keye-VL-2.0, 多模态大模型, DSA, 稀疏注意力