记得住、答得快、用得省：HERMES 让流式视频理解实时响应提速 10 倍

📌 一句话摘要

复旦大学等机构提出 HERMES 框架，通过将 KV Cache 建模为层次化记忆系统，实现流式视频理解中无需额外检索的实时响应，首 token 生成时间加速最高 10 倍。

📝 详细摘要

本文介绍了由复旦大学、上海创智学院与新加坡国立大学联合提出的 HERMES 框架，旨在解决流式视频理解中实时响应、显存开销与理解性能之间的三难困境。HERMES 的核心创新在于将 KV Cache 重新建模为层次化记忆系统，灵感来源于人类记忆的组织方式。研究团队通过注意力机制分析发现，不同解码层天然呈现出不同的记忆分工：浅层类似感官记忆，关注最新帧；中层类似工作记忆，平衡近期与语义信息；深层类似长期记忆，锁定关键帧级锚点。基于此洞察，HERMES 构建了三大关键组件：分层 KV Cache 管理、跨层记忆平滑和位置重索引。实验结果表明，在仅使用 4K video tokens 的情况下，HERMES 在 StreamingBench 上相较基座模型提升 6.13 个百分点，在开放式问答任务上最高提升 11.4%，同时实现最高 10 倍的首 token 生成时间加速，并减少 68% 的视频 token。该工作已被 ACL 2026 主会录用。

💡 主要观点

- HERMES 将 KV Cache 重新建模为层次化记忆系统，模拟人类记忆的感官、工作与长期记忆三层结构。 通过注意力机制分析发现，浅层关注最新帧（感官记忆），中层平衡近期与语义信息（工作记忆），深层锁定关键帧级锚点（长期记忆），据此设计差异化缓存保留策略。

HERMES 实现无需额外检索的实时响应，首 token 生成时间加速最高 10 倍。 用户提问时直接复用已压缩的缓存进行回答，避免外部检索或辅助计算，在 256 帧输入下 TTFT 仅约 28 ms，相比 StreamingTOM 实现 10 倍加速。

HERMES 在减少 68% 视频 token 的情况下仍能保持甚至提升理解性能。 在 StreamingBench 上基于 Qwen2.5-VL-7B 达到 79.44%（提升 6.13 点），在开放式问答任务上最高提升 11.4%，证明紧凑缓存足以支撑高质量理解。

💬 文章金句

- HERMES 最有启发性的地方，在于它不是从工程经验出发硬做压缩，而是先通过注意力机制分析，去观察不同解码层到底更偏好什么样的视频信息。

KV Cache 并不是一个「各层同质」的存储池，而天然更像一个由感官记忆、工作记忆和长期记忆组成的层次化系统。
HERMES 所回答的，不只是「如何压缩 KV Cache」，而是「如何让视频大模型以更像记忆系统的方式持续工作」。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3975

标签：流式视频理解, KV Cache, 层次化记忆, HERMES, 多模态大模型

阅读完整文章

记得住、答得快、用得省：HERMES 让流式视频理解实时响应提速 10 倍

🤖 問 AI