小米首次公开 MiMo-V2.5 系列模型推理系统全链路优化方案,围绕 Hybrid SWA + MoE + 多模态架构,系统性重构 KVCache 管理、前缀缓存、调度策略及 Prefill/Decode 链路,实现 KVCache 存储压缩至约 1/7,并以此支撑 API 最高 99% 的永久降价。
📝 详细摘要
本文是小米技术团队首次公开其 MiMo-V2.5 系列模型推理系统的全链路优化技术细节。文章的核心逻辑是:通过 Hybrid SWA(滑动窗口注意力)架构,将 70 层 Transformer 中 60 层的 KVCache 存储需求降至全 Full Attention 方案的约 1/7,从架构层面大幅降低推理成本。然而,理论优势需要工程化落地。团队围绕这一核心,系统性重构了推理栈:采用双池分治策略管理 KVCache,将 Full KV 与 SWA KV 独立存储;重构前缀缓存树,解决 SWA 模式下的伪命中问题,使线上命中率达 93%;自研 GCache 三级缓存系统,实现 KVCache 在显存、内存和 SSD 间的自动流转。在调度与计算层面,引入 KVCache 亲和调度和计算量感知优先调度,将 TTFT P90 降低 30%;缩减 Expert Parallelism 至原先的 1/2,使 Prefill 性能提升约 40%。在 Decode 阶段,通过显存扩容和 MTP 投机解码,前 128 token 加速比达 2.3 倍。多模态链路也实现了并行化,1 小时视频处理延时从 156 秒降至 23 秒。文章强调,这是一套多维协同优化的系统工程,而非单点突破,最终将节省的成本以 API 降价回馈用户,并已向 SGLang 开源社区回馈部分优化。
💡 主要观点
- Hybrid SWA 架构是推理成本降低的核心,将 KVCache 存储需求压缩至约 1/7。 MiMo-V2.5-Pro 在 70 层 Transformer 中仅 10 层使用 Full Attention,其余 60 层使用滑动窗口注意力,大幅减少了长序列场景下的显存占用和计算量,这是后续所有优化的基础。
💬 文章金句
- 技术的价值,最终要体现在被使用的广度上。让更多人能用到更好的模型——这是 MiMo 不变的使命。
- 整体 KVCache 存储需求降至全 Full Attention 方案的约 1/7。
- 我们需要让推理系统真正'理解' Hybrid SWA 的存储特性,将每一项理论优势逐一兑现为工程收益。
- SWA 把缓存体积压到 1/7 是容量层面的收益,前缀缓存重构和 GCache 带来的高命中率是复用层面的收益。两者相乘,才是 Prefill 阶段实际计算成本的真实曲线。
- 作为首篇全面覆盖 Hybrid SWA + MoE + 多模态组合架构的大规模工程落地方案,我们将由此节省的成本以 API 降价回馈用户。
📊 文章信息
AI 初评:88
来源:小米技术
作者:小米技术
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3315
标签: MiMo, 推理优化, Hybrid SWA, KVCache, MoE