小米开源 MiMo-V2.5-Pro(1T/42B MoE)和 MiMo-V2.5(310B/15B MoE)模型,支持 1M 上下文,并发布 100T Token 创造者激励计划。
📝 详细摘要
这篇推文详细介绍了小米最新开源的 MiMo-V2.5 系列模型。MiMo-V2.5-Pro 采用 1T 总参数/42B 激活的 MoE 架构,支持 1M 上下文;MiMo-V2.5 为 310B/15B MoE。架构关键点包括:混合注意力(SWA 与 GA 交错)、多 Token 预测(MTP,3 层)和稀疏 MoE。后训练采用 MOPD(Multi-Teacher On-Policy Distillation)范式。同时发布了 100T Token 创造者激励计划。
📊 文章信息
AI 初评:85
来源:meng shao(@shao__meng)
作者:meng shao
分类:人工智能
语言:中文
阅读时间:5 分钟
字数:1006
标签: MiMo-V2.5, 小米, 开源模型, MoE, 百万上下文