快手发布 Keye-VL-2.0-30B-A3B 多模态大模型,首次将 DSA 稀疏注意力机制引入多模态领域,实现 256K 超长上下文无损推理,并解锁 Agent 协作能力,在视频理解、代码、工具调用等多项基准上达到 SOTA。
📝 详细摘要
本文详细介绍了快手最新发布的多模态大模型 Keye-VL-2.0-30B-A3B。该模型的核心技术突破包括:首次将 DeepSeek Sparse Attention (DSA) 机制应用于多模态理解,有效解决了长视频理解中的算力瓶颈和信息稀释问题,实现了 256K 超长上下文的深度感知;通过时空统一编码与长时序特征聚合,在 TimeLens、LongVideoBench 等多项视频理解基准上超越同级别模型,甚至跨级对标 Gemini 等顶级闭源模型;首次解锁 Agent 协作机制,在 Code、Tool、Search 等复杂场景下展现出系统级执行潜力;引入跨模态 MOPD 技术克服多任务学习的灾难性遗忘;以及基于 Context-RL 奖励机制和严苛数据引擎的后训练体系,显著提升了推理的可靠性和事实性。文章还展示了模型在长视频因果推理、高光时刻提取、复杂工具调度等场景下的具体案例,并阐述了其在快手内部推荐、内容治理、广告投放等业务中的落地价值。
💡 主要观点
- Keye-VL-2.0 首次将 DSA 稀疏注意力机制引入多模态领域,突破长视频理解算力瓶颈。 通过结合稀疏注意力与特征聚合,模型在处理小时级视频时能有效提纯信息、捕捉关键帧,并将长序列预填充成本降低 50%,Decode 成本增长平缓,为超长视频落地提供低成本方案。
💬 文章金句
- 如何突破视频理解任务中超长视觉上下文带来的算力瓶颈?又如何让模型从一个单纯的「观察者」进化为能解决实际复杂任务的「行动者」?
- 跑分不是终点,落地才是。
- Keye-VL-2.0-30B-A3B 展现出了截然不同的理解能力。它不仅看见了画面,更读懂了画面背后的因果。
- 当输入视频从 64 帧极限扩展至 512 帧时,模型的平均准确率(ACC)不仅未见衰减,反而从 35.34%逆势大幅飙升至 42.44%。
📊 文章信息
AI 初评:86
来源:量子位
作者:克雷西
分类:人工智能
语言:中文
阅读时间:30 分钟
字数:7300
标签: 快手, Keye-VL-2.0, 多模态大模型, DSA, 稀疏注意力