← 回總覽

快手 Keye2.0 开源:将 DSA 注意力引入多模态,开启强化推理新范式

📅 2026-05-30 15:29 魔搭ModelScope社区 人工智能 2 分鐘 1736 字 評分: 88
快手 Keye-VL-2.0 多模态大模型 DSA 稀疏注意力
📌 一句话摘要 快手开源 Keye-VL-2.0-30B-A3B 多模态大模型,率先将 DeepSeek 的 DSA 稀疏注意力引入多模态场景,以 30B 总参、3B 激活参数实现视频理解 SOTA,多项基准超越 200B+ 开源模型。 📝 详细摘要 本文介绍了快手正式开源的新版多模态大模型 Keye-VL-2.0-30B-A3B。该模型的核心创新在于率先将 DeepSeek 的 DSA(DeepSeek Sparse Attention)稀疏注意力机制引入多模态场景,实现了 256K 超长上下文能力,并将长序列 Prefill 成本降低 50%。模型采用总参数 30B、推理时仅激活 3B

📌 一句话摘要

快手开源 Keye-VL-2.0-30B-A3B 多模态大模型,率先将 DeepSeek 的 DSA 稀疏注意力引入多模态场景,以 30B 总参、3B 激活参数实现视频理解 SOTA,多项基准超越 200B+ 开源模型。

📝 详细摘要

本文介绍了快手正式开源的新版多模态大模型 Keye-VL-2.0-30B-A3B。该模型的核心创新在于率先将 DeepSeek 的 DSA(DeepSeek Sparse Attention)稀疏注意力机制引入多模态场景,实现了 256K 超长上下文能力,并将长序列 Prefill 成本降低 50%。模型采用总参数 30B、推理时仅激活 3B 的 MoE 架构,在 VideoMME V2、LongVideoBench、MLVU 等多项视频理解基准上达到 30B 级别 SOTA,并超越多个 200B+ 开源模型。文章详细展示了模型在长视频理解(如工艺拆解、纪录片叙事解构)、高光时刻提取、Agent 任务调度等方面的能力,并介绍了克服灾难性遗忘的 MOPD 技术和提升推理可靠性的 Context-RL 机制。最后提供了基于 SGLang 的模型部署和调用示例。

💡 主要观点

- Keye-VL-2.0 率先将 DSA 稀疏注意力引入多模态,实现高效长视频理解。 通过 DSA 结合稀疏注意力与特征聚合,模型在处理小时级视频时能有效提纯信息,长序列 Prefill 成本降低 50%,为超长视频的落地提供了低成本方案。

以 30B 总参、3B 激活参数的 MoE 架构,在多项视频理解基准上达到 SOTA。 在 VideoMME V2、LongVideoBench、MLVU 等基准上,Keye-VL-2.0 不仅在同级别模型中领先,还超越了 Qwen3-VL-235B-A22B 等更大规模的模型,验证了其架构的高效性。
模型内建 Agent 协作机制,在代码和工具调用任务上表现优异。 Keye 系列首次在多模态基座中内建 Agent 能力,在 LivecodeBench、SWE-bench、TAU2-Bench 等基准上取得领先成绩,并能自主规划执行复杂多步 API 调用。
引入 MOPD 和 Context-RL 技术,克服灾难性遗忘并提升推理可靠性。 MOPD 通过多专家策略蒸馏与合并解决多任务学习中的遗忘问题;Context-RL 利用混合模态参考信息构建稠密奖励信号,压制幻觉,确保模型严格锚定输入信息进行推理。

💬 文章金句

- Keye-VL-2.0-30B-A3B 率先在多模态场景中应用 DSA,结合稀疏注意力与特征聚合,在处理小时级视频序列时有效进行信息提纯,精准捕捉关键帧并理清动态规律。

  • 引入 DSA 后,长序列 Prefill 成本降低 50%。
  • VideoMME V2 业界普遍面临'输入帧数越多,注意力越稀释、准确率越低'的问题。Keye-VL-2.0-30B-A3B 扭转了这一趋势。
  • Keye 系列首次在多模态基座中内建 Agent 协作机制,面对复杂的多步任务,构建了稳定可靠的自动化调度能力。

📊 文章信息

AI 初评:88

来源:魔搭ModelScope社区

作者:魔搭ModelScope社区

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3715

标签: 快手, Keye-VL-2.0, 多模态大模型, DSA, 稀疏注意力

阅读完整文章

查看原文 → 發佈: 2026-05-30 15:29:00 收錄: 2026-05-30 22:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。