复旦大学等机构提出 HERMES 框架,通过将 KV Cache 建模为层次化记忆系统,实现流式视频理解中无需额外检索的实时响应,首 token 生成时间加速最高 10 倍。
📝 详细摘要
本文介绍了由复旦大学、上海创智学院与新加坡国立大学联合提出的 HERMES 框架,旨在解决流式视频理解中实时响应、显存开销与理解性能之间的三难困境。HERMES 的核心创新在于将 KV Cache 重新建模为层次化记忆系统,灵感来源于人类记忆的组织方式。研究团队通过注意力机制分析发现,不同解码层天然呈现出不同的记忆分工:浅层类似感官记忆,关注最新帧;中层类似工作记忆,平衡近期与语义信息;深层类似长期记忆,锁定关键帧级锚点。基于此洞察,HERMES 构建了三大关键组件:分层 KV Cache 管理、跨层记忆平滑和位置重索引。实验结果表明,在仅使用 4K video tokens 的情况下,HERMES 在 StreamingBench 上相较基座模型提升 6.13 个百分点,在开放式问答任务上最高提升 11.4%,同时实现最高 10 倍的首 token 生成时间加速,并减少 68% 的视频 token。该工作已被 ACL 2026 主会录用。
💡 主要观点
- HERMES 将 KV Cache 重新建模为层次化记忆系统,模拟人类记忆的感官、工作与长期记忆三层结构。 通过注意力机制分析发现,浅层关注最新帧(感官记忆),中层平衡近期与语义信息(工作记忆),深层锁定关键帧级锚点(长期记忆),据此设计差异化缓存保留策略。
💬 文章金句
- HERMES 最有启发性的地方,在于它不是从工程经验出发硬做压缩,而是先通过注意力机制分析,去观察不同解码层到底更偏好什么样的视频信息。
- KV Cache 并不是一个「各层同质」的存储池,而天然更像一个由感官记忆、工作记忆和长期记忆组成的层次化系统。
- HERMES 所回答的,不只是「如何压缩 KV Cache」,而是「如何让视频大模型以更像记忆系统的方式持续工作」。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3975
标签: 流式视频理解, KV Cache, 层次化记忆, HERMES, 多模态大模型