MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

📌 一句话摘要

MiniMax 发布 M3 模型，集前沿 Coding 能力、1M 超长上下文和原生多模态于一体，是国内首个齐备这些要素的模型，并已开源。

📝 详细摘要

MiniMax 正式发布 M3 模型，这是国内首个同时具备前沿编程能力、1M 超长上下文和原生多模态能力的模型，也是目前唯一的开源模型。M3 在 SWE-Bench Pro、Terminal Bench 等权威评测中达到国际领先水平，Coding 能力超越 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7。其核心创新在于全新的稀疏注意力架构 MSA，在 100 万上下文下计算量仅为上代模型的 1/20，prefilling 阶段加速超 9 倍。M3 从 Step 0 开始进行多模态混合训练，支持图片和视频输入，并能操作电脑桌面。文章通过验证论文复现、CUDA 算子优化、模型自主训练等实际任务，展示了 M3 在长程复杂任务上的自主迭代能力。同时，MiniMax 还推出了专为 M3 设计的 Agent 产品 MiniMax Code 和极具性价比的 Token Plan 订阅方案。

💡 主要观点

- MiniMax M3 是国内首个集前沿 Coding、1M 上下文和原生多模态于一体的开源模型。 M3 同时具备这三个海外闭源前沿模型的核心能力，填补了国内开源模型的空白，并在多项基准测试中达到国际领先水平。

全新稀疏注意力架构 MSA 是 M3 实现 1M 超长上下文的关键。 MSA 通过更精确的 KV 分块和硬件友好的算子优化，在 100 万上下文下计算量仅为上代模型的 1/20，prefilling 阶段加速超 9 倍，且能力与全注意力基本持平。

M3 在长程复杂 Agent 任务中展现出强大的自主迭代能力。 通过论文复现、CUDA 算子优化等实际任务验证，M3 能够自主运行数小时至一天，完成多轮迭代优化，在 CUDA 算子优化中将硬件峰值利用率从 7.6% 提升至 71.3%。

MiniMax 推出专为 M3 设计的 Agent 产品 MiniMax Code 和极具性价比的 Token Plan。 MiniMax Code 能充分发挥 M3 的长上下文、Coding/Agentic 和多模态能力，支持长程复杂任务拆解和自主运行。Token Plan 提供比 Claude 订阅高 15 倍的用量，大幅降低开发者使用前沿模型的成本。

💬 文章金句

- M3 是国内第一个齐备这些要素的模型，也是目前唯一的开源模型。

在 100 万上下文下，M3 每 token 计算量仅为上代模型的 1/20。
下一代 Agent Coding 比的不仅是代码生成，更要比拼长期协作能力、规划能力以及人与 Agent 的协同效率。
M3 把真正对 Coding 和 Agent 至关重要的数据 Scale up，目标不仅是在 Benchmark 上取得领先，更是在真实研发流程中成为开发者可靠的协作伙伴。

📊 文章信息

AI 初评：93

精选文章：是

来源：MiniMax 稀宇科技

作者：MiniMax 稀宇科技

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4251

标签： MiniMax M3, 大语言模型, 多模态, Coding, Agent

阅读完整文章

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

🤖 問 AI