快手 Keye2.0 开源：将 DSA 注意力引入多模态，开启强化推理新范式

📌 一句话摘要

快手开源 Keye-VL-2.0-30B-A3B 多模态大模型，率先将 DeepSeek 的 DSA 稀疏注意力引入多模态场景，以 30B 总参、3B 激活参数实现视频理解 SOTA，多项基准超越 200B+ 开源模型。

📝 详细摘要

本文介绍了快手正式开源的新版多模态大模型 Keye-VL-2.0-30B-A3B。该模型的核心创新在于率先将 DeepSeek 的 DSA（DeepSeek Sparse Attention）稀疏注意力机制引入多模态场景，实现了 256K 超长上下文能力，并将长序列 Prefill 成本降低 50%。模型采用总参数 30B、推理时仅激活 3B 的 MoE 架构，在 VideoMME V2、LongVideoBench、MLVU 等多项视频理解基准上达到 30B 级别 SOTA，并超越多个 200B+ 开源模型。文章详细展示了模型在长视频理解（如工艺拆解、纪录片叙事解构）、高光时刻提取、Agent 任务调度等方面的能力，并介绍了克服灾难性遗忘的 MOPD 技术和提升推理可靠性的 Context-RL 机制。最后提供了基于 SGLang 的模型部署和调用示例。

💡 主要观点

- Keye-VL-2.0 率先将 DSA 稀疏注意力引入多模态，实现高效长视频理解。 通过 DSA 结合稀疏注意力与特征聚合，模型在处理小时级视频时能有效提纯信息，长序列 Prefill 成本降低 50%，为超长视频的落地提供了低成本方案。

以 30B 总参、3B 激活参数的 MoE 架构，在多项视频理解基准上达到 SOTA。 在 VideoMME V2、LongVideoBench、MLVU 等基准上，Keye-VL-2.0 不仅在同级别模型中领先，还超越了 Qwen3-VL-235B-A22B 等更大规模的模型，验证了其架构的高效性。

模型内建 Agent 协作机制，在代码和工具调用任务上表现优异。 Keye 系列首次在多模态基座中内建 Agent 能力，在 LivecodeBench、SWE-bench、TAU2-Bench 等基准上取得领先成绩，并能自主规划执行复杂多步 API 调用。

引入 MOPD 和 Context-RL 技术，克服灾难性遗忘并提升推理可靠性。 MOPD 通过多专家策略蒸馏与合并解决多任务学习中的遗忘问题；Context-RL 利用混合模态参考信息构建稠密奖励信号，压制幻觉，确保模型严格锚定输入信息进行推理。

💬 文章金句

- Keye-VL-2.0-30B-A3B 率先在多模态场景中应用 DSA，结合稀疏注意力与特征聚合，在处理小时级视频序列时有效进行信息提纯，精准捕捉关键帧并理清动态规律。

引入 DSA 后，长序列 Prefill 成本降低 50%。
VideoMME V2　业界普遍面临'输入帧数越多，注意力越稀释、准确率越低'的问题。Keye-VL-2.0-30B-A3B 扭转了这一趋势。
Keye 系列首次在多模态基座中内建 Agent 协作机制，面对复杂的多步任务，构建了稳定可靠的自动化调度能力。

📊 文章信息

AI 初评：88

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3715

标签：快手, Keye-VL-2.0, 多模态大模型, DSA, 稀疏注意力

阅读完整文章

快手 Keye2.0 开源：将 DSA 注意力引入多模态，开启强化推理新范式

🤖 問 AI