← 回總覽

将 DSA 注意力引入多模态,快手 Keye2.0 开启强化推理新范式

📅 2026-05-26 18:17 克雷西 人工智能 2 分鐘 1761 字 評分: 86
快手 Keye-VL-2.0 多模态大模型 DSA 稀疏注意力
📌 一句话摘要 快手发布 Keye-VL-2.0-30B-A3B 多模态大模型,首次将 DSA 稀疏注意力机制引入多模态领域,实现 256K 超长上下文无损推理,并解锁 Agent 协作能力,在视频理解、代码、工具调用等多项基准上达到 SOTA。 📝 详细摘要 本文详细介绍了快手最新发布的多模态大模型 Keye-VL-2.0-30B-A3B。该模型的核心技术突破包括:首次将 DeepSeek Sparse Attention (DSA) 机制应用于多模态理解,有效解决了长视频理解中的算力瓶颈和信息稀释问题,实现了 256K 超长上下文的深度感知;通过时空统一编码与长时序特征聚合,在 Tim

📌 一句话摘要

快手发布 Keye-VL-2.0-30B-A3B 多模态大模型,首次将 DSA 稀疏注意力机制引入多模态领域,实现 256K 超长上下文无损推理,并解锁 Agent 协作能力,在视频理解、代码、工具调用等多项基准上达到 SOTA。

📝 详细摘要

本文详细介绍了快手最新发布的多模态大模型 Keye-VL-2.0-30B-A3B。该模型的核心技术突破包括:首次将 DeepSeek Sparse Attention (DSA) 机制应用于多模态理解,有效解决了长视频理解中的算力瓶颈和信息稀释问题,实现了 256K 超长上下文的深度感知;通过时空统一编码与长时序特征聚合,在 TimeLens、LongVideoBench 等多项视频理解基准上超越同级别模型,甚至跨级对标 Gemini 等顶级闭源模型;首次解锁 Agent 协作机制,在 Code、Tool、Search 等复杂场景下展现出系统级执行潜力;引入跨模态 MOPD 技术克服多任务学习的灾难性遗忘;以及基于 Context-RL 奖励机制和严苛数据引擎的后训练体系,显著提升了推理的可靠性和事实性。文章还展示了模型在长视频因果推理、高光时刻提取、复杂工具调度等场景下的具体案例,并阐述了其在快手内部推荐、内容治理、广告投放等业务中的落地价值。

💡 主要观点

- Keye-VL-2.0 首次将 DSA 稀疏注意力机制引入多模态领域,突破长视频理解算力瓶颈。 通过结合稀疏注意力与特征聚合,模型在处理小时级视频时能有效提纯信息、捕捉关键帧,并将长序列预填充成本降低 50%,Decode 成本增长平缓,为超长视频落地提供低成本方案。

模型在多项视频理解基准上达到 SOTA,尤其在长时序感知上实现无损推理。 在 TimeLens、LongVideoBench 等基准上,Keye-VL-2.0 不仅超越同尺寸模型,更在多项指标上跨级对标甚至超越 Gemini 等顶级闭源模型,且打破了长上下文衰减魔咒,512 帧输入时准确率逆势提升。
首次解锁 Agent 协作机制,打通感知-规划-执行全链路。 模型内建 Code Agent、Tool Agent 等能力,在 LivecodeBench、SWE-bench、TAU2-Bench 等基准上取得领先成绩,并能自主完成复杂多步任务调度,如同时处理门店查询、距离测算、订单创建等。
通过 MOPD 和 Context-RL 等技术,克服多任务灾难性遗忘并提升推理可靠性。 跨模态 MOPD 技术有效整合各垂域专家模型,避免能力退化;Context-RL 奖励机制结合严苛数据引擎,提供超几何分布级别的事实性监督,显著抑制幻觉,确保长程推演稳定性。

💬 文章金句

- 如何突破视频理解任务中超长视觉上下文带来的算力瓶颈?又如何让模型从一个单纯的「观察者」进化为能解决实际复杂任务的「行动者」?

  • 跑分不是终点,落地才是。
  • Keye-VL-2.0-30B-A3B 展现出了截然不同的理解能力。它不仅看见了画面,更读懂了画面背后的因果。
  • 当输入视频从 64 帧极限扩展至 512 帧时,模型的平均准确率(ACC)不仅未见衰减,反而从 35.34%逆势大幅飙升至 42.44%。

📊 文章信息

AI 初评:86

来源:量子位

作者:克雷西

分类:人工智能

语言:中文

阅读时间:30 分钟

字数:7300

标签: 快手, Keye-VL-2.0, 多模态大模型, DSA, 稀疏注意力

阅读完整文章

查看原文 → 發佈: 2026-05-26 18:17:39 收錄: 2026-05-27 12:00:36

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。