快手发布 Keye-VL-2.0-30B-A3B 多模态大模型,首次将 DSA 稀疏注意力机制引入多模态领域,实现 256K 超长上下文无损推理,并解锁 Agent 协作能力,在长视频时序理解、代码生成、工具调用等任务上达到同尺寸 SOTA。
📝 详细摘要
本文是快手技术团队发布的官方技术博客,详细介绍了其最新多模态大语言模型 Keye-VL-2.0-30B-A3B 的核心技术突破。文章首先指出长视频理解的痛点在于超长视觉上下文带来的算力瓶颈和信息稀释,而 Keye-VL-2.0 通过首次在多模态场景中应用 DeepSeek Sparse Attention (DSA) 架构,结合稀疏注意力与特征聚合,成功实现了对 256K 超长上下文的深度感知,并在 TimeLens、LongVideoBench 等视频理解基准上取得了超越 Gemini 等闭源模型及同级别开源模型的成绩。其次,模型首次内建了 Agent 协作机制,在 Code Agent、Tool Agent 等场景展现出系统级执行潜力,并基于 MOPD 多专家策略蒸馏技术克服了多任务学习中的灾难性遗忘,实现了通用能力的全面爆发。最后,文章介绍了 Context-RL 奖励机制和严苛数据引擎在后训练阶段对推理可靠性的保障,并展望了模型在快手推荐系统、视频素材生产等真实业务场景中的应用前景。
💡 主要观点
- 首次将 DSA 稀疏注意力机制引入多模态,破解长视频理解瓶颈。 Keye-VL-2.0 应用 DeepSeek Sparse Attention,结合稀疏注意力与特征聚合,在处理小时级视频时能有效提纯信息,实现 256K 超长上下文下的无损推理,并在 TimeLens 等基准上超越 Gemini 等闭源模型。
💬 文章金句
- 快手 Keye-VL-2.0-30B-A3B 率先将 DSA(DeepSeek Sparse Attention)机制引入多模态理解场景,成功解锁了 256K 超长上下文的深度感知,在长视频时序感知上实现了几乎无损的推理能力。
- 真正的长视频理解,是对复杂剧情跌宕、空间跳跃与情感暗线的全面洞察。
- 跑分不是终点,落地才是。
- 模型不仅看见了画面,更读懂了画面背后的因果。
📊 文章信息
AI 初评:88
来源:快手技术
作者:快手技术
分类:人工智能
语言:中文
阅读时间:30 分钟
字数:7409
标签: Keye-VL-2.0, 快手, 多模态大模型, DSA, 稀疏注意力