我用 M3 跑了三个真实长程任务，发现它强在后半程

📌 一句话摘要

本文通过三个真实长程任务（官网改造、写作专家团、知识库探案室）的实测，论证 M3 的核心优势不在于单点 Demo 上限，而在于长程任务后半程的上下文保持与任务推进能力。

📝 详细摘要

本文是 AI 产品领域 KOL「AI 产品黄叔」对 MiniMax M3 模型的深度实测报告。作者没有停留在单点 Demo 测试，而是设计了三个贴近真实业务的长程任务：1）将旧版 AI 编程课程官网改造为 Agent Native 官网，涉及多模态理解旧页面、重构信息架构、修改 2000 行代码；2）利用个人知识库搭建「写作专家团」，测试多角色、多轮反馈下的风格保持与角色边界稳定性；3）将飞书知识库转化为可交互的网页探案室，考验模型从长文档中抽结构、设计关卡并落成前端产品的能力。文章的核心结论是：M3 的真正拉开差距之处在于长程任务后半程的稳定性——它能在上下文变长、任务变复杂后，仍然保持约束、角色边界和任务方向，而非像弱模型那样「前半段像人干的，后半段像临时工接班」。文章也坦诚讨论了当前 Agent 工作流的三个边界：长程稳定不等于全程自治、输出可信不等于天然可信、能做成产品不等于完全理解业务。

💡 主要观点

- M3 的核心优势是长程任务后半程的上下文保持能力。 在官网改造、写作专家团、知识库探案室三个任务中，M3 均表现出在任务后期仍能记住前期约束、角色边界和任务方向的能力，这是弱模型在长任务中容易失忆的关键差距。

1M 上下文的意义不是「能塞更多字」，而是让模型在长任务中不失忆。 作者指出，长上下文真正支撑的是 Agent 在持续干活时保留完整工作现场，避免出现前面刚说过的约束后面忘了、刚修过的 bug 又用同样方法再修一遍等问题。

多模态、长上下文与 Agentic 能力三者结合，才能撑起真实长程任务。 官网改造案例中，M3 先通过多模态「看懂」旧页面结构，再结合上下文理解项目语境，最后通过 Agentic 能力拆任务、写代码、跑验证，形成完整的任务推进链。

当前 Agent 工作流存在三个边界：非全程自治、输出非天然可信、产品化不等于理解业务。 作者坦诚指出，M3 在工具卡死、方向取舍、质量判断时仍需人介入；写作和数据引用仍需人检查证据链；知识库重组中的线索来源和业务取舍仍需人守最后一道质量门。

💬 文章金句

- M3 这次真正拉开的，不是 Demo 上限，而是长程任务的下限。

弱一点的模型，前几步也能跑得挺漂亮。但跑到后面，容易忘约束、改错方向、重复犯错，最后变成「看起来一直在忙，其实没往前走」。
1M 上下文真正支撑的，是让模型在长程任务后半段还保留完整工作现场。
M3 更适合长程任务，但它不是责任主体。

📊 文章信息

AI 初评：87

来源：AI产品黄叔

作者：AI产品黄叔

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4986

标签： AI Agent, LLM, AI 产品与应用, AI 编程, 模型评测与基准

阅读完整文章

我用 M3 跑了三个真实长程任务，发现它强在后半程

🤖 問 AI