将 DSA 注意力引入多模态，快手 Keye2.0 开启强化推理新范式

📌 一句话摘要

快手发布 Keye-VL-2.0-30B-A3B 多模态大模型，首次将 DSA 稀疏注意力机制引入多模态领域，实现 256K 超长上下文无损推理，并解锁 Agent 协作能力，在视频理解、代码、工具调用等多项基准上达到 SOTA。

📝 详细摘要

本文详细介绍了快手最新发布的多模态大模型 Keye-VL-2.0-30B-A3B。该模型的核心技术突破包括：首次将 DeepSeek Sparse Attention (DSA) 机制应用于多模态理解，有效解决了长视频理解中的算力瓶颈和信息稀释问题，实现了 256K 超长上下文的深度感知；通过时空统一编码与长时序特征聚合，在 TimeLens、LongVideoBench 等多项视频理解基准上超越同级别模型，甚至跨级对标 Gemini 等顶级闭源模型；首次解锁 Agent 协作机制，在 Code、Tool、Search 等复杂场景下展现出系统级执行潜力；引入跨模态 MOPD 技术克服多任务学习的灾难性遗忘；以及基于 Context-RL 奖励机制和严苛数据引擎的后训练体系，显著提升了推理的可靠性和事实性。文章还展示了模型在长视频因果推理、高光时刻提取、复杂工具调度等场景下的具体案例，并阐述了其在快手内部推荐、内容治理、广告投放等业务中的落地价值。

💡 主要观点

- Keye-VL-2.0 首次将 DSA 稀疏注意力机制引入多模态领域，突破长视频理解算力瓶颈。 通过结合稀疏注意力与特征聚合，模型在处理小时级视频时能有效提纯信息、捕捉关键帧，并将长序列预填充成本降低 50%，Decode 成本增长平缓，为超长视频落地提供低成本方案。

模型在多项视频理解基准上达到 SOTA，尤其在长时序感知上实现无损推理。 在 TimeLens、LongVideoBench 等基准上，Keye-VL-2.0 不仅超越同尺寸模型，更在多项指标上跨级对标甚至超越 Gemini 等顶级闭源模型，且打破了长上下文衰减魔咒，512 帧输入时准确率逆势提升。

首次解锁 Agent 协作机制，打通感知-规划-执行全链路。 模型内建 Code Agent、Tool Agent 等能力，在 LivecodeBench、SWE-bench、TAU2-Bench 等基准上取得领先成绩，并能自主完成复杂多步任务调度，如同时处理门店查询、距离测算、订单创建等。

通过 MOPD 和 Context-RL 等技术，克服多任务灾难性遗忘并提升推理可靠性。 跨模态 MOPD 技术有效整合各垂域专家模型，避免能力退化；Context-RL 奖励机制结合严苛数据引擎，提供超几何分布级别的事实性监督，显著抑制幻觉，确保长程推演稳定性。

💬 文章金句

- 如何突破视频理解任务中超长视觉上下文带来的算力瓶颈？又如何让模型从一个单纯的「观察者」进化为能解决实际复杂任务的「行动者」？

跑分不是终点，落地才是。
Keye-VL-2.0-30B-A3B 展现出了截然不同的理解能力。它不仅看见了画面，更读懂了画面背后的因果。
当输入视频从 64 帧极限扩展至 512 帧时，模型的平均准确率（ACC）不仅未见衰减，反而从 35.34%逆势大幅飙升至 42.44%。

📊 文章信息

AI 初评：86

来源：量子位

作者：克雷西

分类：人工智能

语言：中文

阅读时间：30 分钟

字数：7300

标签：快手, Keye-VL-2.0, 多模态大模型, DSA, 稀疏注意力

阅读完整文章

将 DSA 注意力引入多模态，快手 Keye2.0 开启强化推理新范式

🤖 問 AI