MiniMax M3 一手实测：老黄 PPT 上 74 个 Logo，我以为能难住它

📌 一句话摘要

本文通过复现论文、识别 PPT Logo、制作打卡地图和讲解语言学奥赛视频等实测，验证了 MiniMax M3 在长上下文、多模态和 Coding 三大能力上的综合表现，认为其已进入全球第一梯队。

📝 详细摘要

文章围绕 MiniMax 最新开源的旗舰模型 M3 展开，重点评测其长上下文、多模态和 Coding 三大核心能力。作者设计了四个实测任务：独立复现 ICLR 2025 获奖论文（12 小时无人干预）、识别黄仁勋 ComputeX 演讲 PPT 中 74 家 DSX 生态企业 Logo 并制作交互网页、根据老黄北京行程制作美食打卡地图、理解语言学奥赛讲解视频并复现讲题网页。所有任务均成功完成，展示了 M3 在长程自主编程、多模态理解、信息检索和网页生成方面的综合能力。文章还介绍了 M3 背后的关键技术：MSA 稀疏注意力机制（1M 上下文下每 token 计算量降至上代 1/20）、交互式用户模拟器框架（用于训练 Coding 和 Agent 能力）、以及从预训练第一步就做图文混合的原生多模态路线。最后，文章指出 M3 是开源模型中首个同时具备这三项能力的模型，综合能力已接近 Claude Opus、GPT-5.5 等顶尖闭源模型，性价比突出。

💡 主要观点

- M3 在长上下文、多模态和 Coding 三项能力上同时达到顶尖水平，是开源模型首次。 此前能同时跑通这三件事的只有 Claude Opus、GPT-5.5、Gemini 3.1 等闭源旗舰，M3 是首个撕开这个口子的开源模型，SWE-Bench Pro 得分 59%超过 GPT-5.5 和 Gemini 3.1 Pro。

实测任务验证了 M3 在复杂长程自主编程中的可靠性。 复现 ICLR 2025 获奖论文时，M3 自主运行 12 小时、产出 18 次 commit 与 23 张实验图表，遇到问题自行诊断调整，全程无需人工介入，展示了接近人类研究助理的自主性。

M3 的多模态能力覆盖文本、图像和视频，且能跨模态协同。 从识别 PPT 中 74 个 Logo 到理解近 2 小时语言学奥赛视频并复现讲题网页，M3 展示了从视觉输入到代码输出的完整闭环能力，其原生多模态路线（从预训练第一步就做图文混合）是关键。

MSA 稀疏注意力机制和交互式用户模拟器是 M3 的核心技术亮点。 MSA 通过 KV 块为外层循环汇聚 query，实现高效硬件利用，1M 上下文下每 token 计算量压到上代 1/20；交互式用户模拟器让模型在训练阶段就接触接近生产环境的协作场景，提升 Coding 和 Agent 能力。

💬 文章金句

- M3，是国内第一个把这三件事（长上下文、多模态、Coding）同时做到的开源模型。

这张图本身就是最好的复现证明，说明 M3 独立走了一遍和论文作者相同的推导路径，得到了相同的答案。
前沿模型能力长期被少数闭源产品把持，这件事在过去几年里几乎未被打破……M3 是第一个撕开这个口子的开源模型。

📊 文章信息

AI 初评：87

来源：量子位

作者：克雷西

分类：人工智能

语言：中文

阅读时间：21 分钟

字数：5088

标签： AI模型, LLM, 多模态AI, AI编程, 模型评测与基准

阅读完整文章

MiniMax M3 一手实测：老黄 PPT 上 74 个 Logo，我以为能难住它

🤖 問 AI