最高降幅达 99%！小米官宣 MiMo‑V2.5 大模型 API 永久降价

📌 一句话摘要

小米宣布 MiMo-V2.5 系列大模型 API 永久降价，最高降幅达 99%，并优化 Token 计费体系，旨在降低开发者调用成本，推动 AI 进入基础设施时代。

📝 详细摘要

文章报道了小米旗下 MiMo 团队宣布对 MiMo-V2.5 系列 API 进行永久性降价的消息，最高降幅达 99%，不再区分上下文窗口长度。同时，小米重做了 Token Plan 计费体系，同等付费额度下可用 Token 数量提升 5-8 倍，并对存量用户额度进行全额重置。文章分析了降价背后的技术原因，包括基于 SGLang 高缓存架构的滑动窗口注意力机制（SWA）等推理系统优化，以及小米开源模型、推出 Token 激励计划等生态布局。文章将此次降价置于行业背景下，指出 DeepSeek 等厂商也在跟进降价，认为 AI 行业正从比拼模型能力转向比拼成本，Token 正在成为类似水电煤的基础设施。

💡 主要观点

- 小米 MiMo-V2.5 系列 API 永久降价，最高降幅达 99%。 降价覆盖 MiMo-V2.5 和 MiMo-V2.5-Pro 两个版本，不再按上下文长度分段定价，缓存命中价格降至每百万 Token 0.025 元，输出价格降至 6 元，大幅降低开发者调用成本。

小米同步优化 Token 计费体系，同等价格下可用 Token 提升 5-8 倍。 Token Plan 全面升级，存量用户额度全额重置并按新规则执行，旨在解决此前开发者反映的上下文重复计费问题，使成本更可预测。

降价得益于推理系统的持续优化，如 SGLang 高缓存架构和 SWA 机制。 小米通过优化 KV 缓存传输、提升缓存命中率和输入吞吐能力，在保障服务质量的前提下持续压低单 Token 服务成本，为降价提供了技术基础。

降价背后是 AI 行业从比拼模型能力转向比拼成本的趋势。 随着模型能力差距缩小，竞争焦点转向将 Token 做成基础设施。小米通过降价、开源模型和激励计划，旨在争夺 AI Agent 生态的开发入口。

💬 文章金句

- 最高降幅达到 99%，不再区分上下文窗口长度。

谁能把 Token 做成'基础设施'。
以前最贵的，不是模型，而是'上下文'。
小米真正想争夺的，并不是单一模型市场，而是未来 AI Agent 生态的开发入口。

📊 文章信息

AI 初评：85

来源：CSDN

作者：CSDN

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2356

标签：小米, MiMo, 大模型, API 降价, Token

阅读完整文章

最高降幅达 99%！小米官宣 MiMo‑V2.5 大模型 API 永久降价

🤖 問 AI