Xiaomi MiMo 首次公开模型推理系统全链路优化技术细节

📌 一句话摘要

小米首次公开 MiMo-V2.5 系列模型推理系统全链路优化方案，围绕 Hybrid SWA + MoE + 多模态架构，系统性重构 KVCache 管理、前缀缓存、调度策略及 Prefill/Decode 链路，实现 KVCache 存储压缩至约 1/7，并以此支撑 API 最高 99% 的永久降价。

📝 详细摘要

本文是小米技术团队首次公开其 MiMo-V2.5 系列模型推理系统的全链路优化技术细节。文章的核心逻辑是：通过 Hybrid SWA（滑动窗口注意力）架构，将 70 层 Transformer 中 60 层的 KVCache 存储需求降至全 Full Attention 方案的约 1/7，从架构层面大幅降低推理成本。然而，理论优势需要工程化落地。团队围绕这一核心，系统性重构了推理栈：采用双池分治策略管理 KVCache，将 Full KV 与 SWA KV 独立存储；重构前缀缓存树，解决 SWA 模式下的伪命中问题，使线上命中率达 93%；自研 GCache 三级缓存系统，实现 KVCache 在显存、内存和 SSD 间的自动流转。在调度与计算层面，引入 KVCache 亲和调度和计算量感知优先调度，将 TTFT P90 降低 30%；缩减 Expert Parallelism 至原先的 1/2，使 Prefill 性能提升约 40%。在 Decode 阶段，通过显存扩容和 MTP 投机解码，前 128 token 加速比达 2.3 倍。多模态链路也实现了并行化，1 小时视频处理延时从 156 秒降至 23 秒。文章强调，这是一套多维协同优化的系统工程，而非单点突破，最终将节省的成本以 API 降价回馈用户，并已向 SGLang 开源社区回馈部分优化。

💡 主要观点

- Hybrid SWA 架构是推理成本降低的核心，将 KVCache 存储需求压缩至约 1/7。 MiMo-V2.5-Pro 在 70 层 Transformer 中仅 10 层使用 Full Attention，其余 60 层使用滑动窗口注意力，大幅减少了长序列场景下的显存占用和计算量，这是后续所有优化的基础。

工程化实践的关键在于将架构优势转化为真实效率，涉及 KVCache 管理、前缀缓存和调度策略的系统性重构。 团队通过双池分治、前缀缓存树重构和自研 GCache 三级缓存，解决了 SWA 模式下缓存命中判定复杂、存储成本高的问题，使线上前缀缓存命中率达 93%。

调度与计算链路的优化进一步释放了硬件潜力，TTFT P90 降低 30%，Prefill 性能提升 40%。 通过 KVCache 亲和调度和计算量感知优先调度，避免了长请求阻塞短请求；缩减 Expert Parallelism 至 1/2，减少了跨机通信，提升了 Prefill 吞吐。

Decode 阶段通过显存扩容和 MTP 投机解码显著加速生成，多模态链路并行化也大幅降低了处理延时。 SWA 释放的显存使单节点并发能力增强，结合 MTP 技术，前 128 token 加速比达 2.3 倍；多模态链路通过 GPU 预处理和并行解码，将 1 小时视频处理时间从 156 秒降至 23 秒。

💬 文章金句

- 技术的价值，最终要体现在被使用的广度上。让更多人能用到更好的模型——这是 MiMo 不变的使命。

整体 KVCache 存储需求降至全 Full Attention 方案的约 1/7。
我们需要让推理系统真正'理解' Hybrid SWA 的存储特性，将每一项理论优势逐一兑现为工程收益。
SWA 把缓存体积压到 1/7 是容量层面的收益，前缀缓存重构和 GCache 带来的高命中率是复用层面的收益。两者相乘，才是 Prefill 阶段实际计算成本的真实曲线。
作为首篇全面覆盖 Hybrid SWA + MoE + 多模态组合架构的大规模工程落地方案，我们将由此节省的成本以 API 降价回馈用户。

📊 文章信息

AI 初评：88

来源：小米技术

作者：小米技术

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3315

标签： MiMo, 推理优化, Hybrid SWA, KVCache, MoE

阅读完整文章

Xiaomi MiMo 首次公开模型推理系统全链路优化技术细节

🤖 問 AI