← 回總覽

Xiaomi MiMo 首次公开模型推理系统全链路优化技术细节

📅 2026-05-30 18:58 小米技术 人工智能 2 分鐘 2081 字 評分: 88
MiMo 推理优化 Hybrid SWA KVCache MoE
📌 一句话摘要 小米首次公开 MiMo-V2.5 系列模型推理系统全链路优化方案,围绕 Hybrid SWA + MoE + 多模态架构,系统性重构 KVCache 管理、前缀缓存、调度策略及 Prefill/Decode 链路,实现 KVCache 存储压缩至约 1/7,并以此支撑 API 最高 99% 的永久降价。 📝 详细摘要 本文是小米技术团队首次公开其 MiMo-V2.5 系列模型推理系统的全链路优化技术细节。文章的核心逻辑是:通过 Hybrid SWA(滑动窗口注意力)架构,将 70 层 Transformer 中 60 层的 KVCache 存储需求降至全 Full Atte

📌 一句话摘要

小米首次公开 MiMo-V2.5 系列模型推理系统全链路优化方案,围绕 Hybrid SWA + MoE + 多模态架构,系统性重构 KVCache 管理、前缀缓存、调度策略及 Prefill/Decode 链路,实现 KVCache 存储压缩至约 1/7,并以此支撑 API 最高 99% 的永久降价。

📝 详细摘要

本文是小米技术团队首次公开其 MiMo-V2.5 系列模型推理系统的全链路优化技术细节。文章的核心逻辑是:通过 Hybrid SWA(滑动窗口注意力)架构,将 70 层 Transformer 中 60 层的 KVCache 存储需求降至全 Full Attention 方案的约 1/7,从架构层面大幅降低推理成本。然而,理论优势需要工程化落地。团队围绕这一核心,系统性重构了推理栈:采用双池分治策略管理 KVCache,将 Full KV 与 SWA KV 独立存储;重构前缀缓存树,解决 SWA 模式下的伪命中问题,使线上命中率达 93%;自研 GCache 三级缓存系统,实现 KVCache 在显存、内存和 SSD 间的自动流转。在调度与计算层面,引入 KVCache 亲和调度和计算量感知优先调度,将 TTFT P90 降低 30%;缩减 Expert Parallelism 至原先的 1/2,使 Prefill 性能提升约 40%。在 Decode 阶段,通过显存扩容和 MTP 投机解码,前 128 token 加速比达 2.3 倍。多模态链路也实现了并行化,1 小时视频处理延时从 156 秒降至 23 秒。文章强调,这是一套多维协同优化的系统工程,而非单点突破,最终将节省的成本以 API 降价回馈用户,并已向 SGLang 开源社区回馈部分优化。

💡 主要观点

- Hybrid SWA 架构是推理成本降低的核心,将 KVCache 存储需求压缩至约 1/7。 MiMo-V2.5-Pro 在 70 层 Transformer 中仅 10 层使用 Full Attention,其余 60 层使用滑动窗口注意力,大幅减少了长序列场景下的显存占用和计算量,这是后续所有优化的基础。

工程化实践的关键在于将架构优势转化为真实效率,涉及 KVCache 管理、前缀缓存和调度策略的系统性重构。 团队通过双池分治、前缀缓存树重构和自研 GCache 三级缓存,解决了 SWA 模式下缓存命中判定复杂、存储成本高的问题,使线上前缀缓存命中率达 93%。
调度与计算链路的优化进一步释放了硬件潜力,TTFT P90 降低 30%,Prefill 性能提升 40%。 通过 KVCache 亲和调度和计算量感知优先调度,避免了长请求阻塞短请求;缩减 Expert Parallelism 至 1/2,减少了跨机通信,提升了 Prefill 吞吐。
Decode 阶段通过显存扩容和 MTP 投机解码显著加速生成,多模态链路并行化也大幅降低了处理延时。 SWA 释放的显存使单节点并发能力增强,结合 MTP 技术,前 128 token 加速比达 2.3 倍;多模态链路通过 GPU 预处理和并行解码,将 1 小时视频处理时间从 156 秒降至 23 秒。

💬 文章金句

- 技术的价值,最终要体现在被使用的广度上。让更多人能用到更好的模型——这是 MiMo 不变的使命。

  • 整体 KVCache 存储需求降至全 Full Attention 方案的约 1/7。
  • 我们需要让推理系统真正'理解' Hybrid SWA 的存储特性,将每一项理论优势逐一兑现为工程收益。
  • SWA 把缓存体积压到 1/7 是容量层面的收益,前缀缓存重构和 GCache 带来的高命中率是复用层面的收益。两者相乘,才是 Prefill 阶段实际计算成本的真实曲线。
  • 作为首篇全面覆盖 Hybrid SWA + MoE + 多模态组合架构的大规模工程落地方案,我们将由此节省的成本以 API 降价回馈用户。

📊 文章信息

AI 初评:88

来源:小米技术

作者:小米技术

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3315

标签: MiMo, 推理优化, Hybrid SWA, KVCache, MoE

阅读完整文章

查看原文 → 發佈: 2026-05-30 18:58:00 收錄: 2026-05-30 22:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。