将 DSA 注意力引入多模态，快手 Keye2.0 开启强化推理新范式

📌 一句话摘要

快手发布 Keye-VL-2.0-30B-A3B 多模态大模型，首次将 DSA 稀疏注意力机制引入多模态领域，实现 256K 超长上下文无损推理，并解锁 Agent 协作能力，在长视频时序理解、代码生成、工具调用等任务上达到同尺寸 SOTA。

📝 详细摘要

本文是快手技术团队发布的官方技术博客，详细介绍了其最新多模态大语言模型 Keye-VL-2.0-30B-A3B 的核心技术突破。文章首先指出长视频理解的痛点在于超长视觉上下文带来的算力瓶颈和信息稀释，而 Keye-VL-2.0 通过首次在多模态场景中应用 DeepSeek Sparse Attention (DSA) 架构，结合稀疏注意力与特征聚合，成功实现了对 256K 超长上下文的深度感知，并在 TimeLens、LongVideoBench 等视频理解基准上取得了超越 Gemini 等闭源模型及同级别开源模型的成绩。其次，模型首次内建了 Agent 协作机制，在 Code Agent、Tool Agent 等场景展现出系统级执行潜力，并基于 MOPD 多专家策略蒸馏技术克服了多任务学习中的灾难性遗忘，实现了通用能力的全面爆发。最后，文章介绍了 Context-RL 奖励机制和严苛数据引擎在后训练阶段对推理可靠性的保障，并展望了模型在快手推荐系统、视频素材生产等真实业务场景中的应用前景。

💡 主要观点

- 首次将 DSA 稀疏注意力机制引入多模态，破解长视频理解瓶颈。 Keye-VL-2.0 应用 DeepSeek Sparse Attention，结合稀疏注意力与特征聚合，在处理小时级视频时能有效提纯信息，实现 256K 超长上下文下的无损推理，并在 TimeLens 等基准上超越 Gemini 等闭源模型。

内建 Agent 协作机制，打通感知-规划-执行全链路。 模型首次解锁 Agent 能力，在 Code Agent（SWE-bench 62.00）、Tool Agent（TAU2-Bench 82.58）等场景展现出多步任务分解与自动化调度潜力，向解决实际复杂任务迈进。

创新 MOPD 多专家策略蒸馏技术，克服灾难性遗忘。 通过跨模态 MOPD 技术整合各垂域专家模型，并独创分桶优势缩放方法，在强化核心推理信号的同时，确保了多任务融合不牺牲通用底座能力，实现全维度能力爆发。

引入 Context-RL 奖励机制，构筑推理可靠性。 后训练阶段采用 Context-RL 机制，利用混合模态参考信息构建稠密细粒度奖励信号，实现超几何分布级别的事实性监督，有效压制幻觉，确保长程推演的稳定性。

💬 文章金句

- 快手 Keye-VL-2.0-30B-A3B 率先将 DSA（DeepSeek Sparse Attention）机制引入多模态理解场景，成功解锁了 256K 超长上下文的深度感知，在长视频时序感知上实现了几乎无损的推理能力。

真正的长视频理解，是对复杂剧情跌宕、空间跳跃与情感暗线的全面洞察。
跑分不是终点，落地才是。
模型不仅看见了画面，更读懂了画面背后的因果。

📊 文章信息

AI 初评：88

来源：快手技术

作者：快手技术

分类：人工智能

语言：中文

阅读时间：30 分钟

字数：7409

标签： Keye-VL-2.0, 快手, 多模态大模型, DSA, 稀疏注意力

阅读完整文章

将 DSA 注意力引入多模态，快手 Keye2.0 开启强化推理新范式

🤖 問 AI