小米：请叫我 Token 价格屠夫

📌 一句话摘要

小米 MiMo-V2.5 系列模型 API 最高降价 99%，通过缓存命中策略和工程优化，将国产大模型缓存命中输入价焊死在 0.025 元/百万 Token 基准线，引发行业新一轮价格内卷。

📝 详细摘要

本文报道了小米 MiMo-V2.5 系列模型 API 的永久降价消息，最高降幅达 99%，并同步优化了 Token Plan 计费体系。文章深入分析了降价背后的核心逻辑：降价并非无条件，关键变量在于输入缓存是否命中。对于高重复上下文、高频 Agent、多轮代码任务等场景，缓存命中价格极具吸引力。文章将小米的降价与 DeepSeek 的类似策略进行对比，指出两者都将最具冲击力的价格放在缓存命中场景，旨在吸引开发者和高频应用，争夺 Agent 生态位。文章还重点解读了小米 MiMo 负责人罗福莉此前反对价格战，但小米通过工程优化（如基于 SGLang HiCache 的 SWA 技术）实现了低成本支撑，使降价成为可持续的长期优势。最后，文章分析了此轮价格战对行业的影响：考验模型厂商的工程能力和生态厚度，将筛选出效率派厂商，并推动竞争从单纯价格转向模型质量、Agent 适配和生态绑定。

💡 主要观点

- 小米 MiMo-V2.5 系列 API 最高降价 99%，但低价依赖缓存命中。 降价并非无条件，缓存命中时输入价格可低至 0.025 元/百万 Token，未命中则维持原价。此策略旨在吸引高频、长上下文的 Agent 和代码助手等场景的开发者。

降价背后是工程能力的支撑，而非单纯补贴。 小米通过基于 SGLang HiCache 的 SWA 技术优化 KV Cache 搬运，将可缓存 Token 数量提升 5 倍，数据搬运量降至七分之一，使低价具备可持续性。

此轮价格战将加速行业洗牌，考验厂商的工程和生态能力。 有工程能力、算力调度和生态入口的公司（如小米、DeepSeek）能承受低价压力，而缺乏这些能力的模型服务商将被推向更窄的垂直场景或被迫出局。

💬 文章金句

- 小米 MiMo-V2.5 系列跟进降价，最高降幅达到 99%。

DeepSeek 和小米都把最有冲击力的价格放在缓存命中和场景，原因并不复杂。大模型正在从聊天走向干活，而 Agent 才是 token 消耗真正放大的地方。
罗福莉此前反对的是没有成本结构支撑的低价，然而，小米现在向我们展示的，却是一套能够支撑低价的工程方案。
价格战考验工程能力，也考验后方厚度。

📊 文章信息

AI 初评：84

来源：虎嗅APP

作者：虎嗅APP

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3168

标签：小米, MiMo, 大模型, API 降价, Token 价格

阅读完整文章

小米：请叫我 Token 价格屠夫

🤖 問 AI