真实测评 MiniMax M2.7，不吹不夸，它到底什么水平？

📌 一句话摘要

本文通过多场景实测，深入评估了 MiniMax M2.7 模型在 Agent 任务、编程辅助、办公自动化及长文本处理方面的实际表现，验证了其在复杂指令遵循与工具调用上的进化。

📝 详细摘要

文章对新发布的 MiniMax M2.7 模型进行了全方位的实战测评。作者通过“龙虾任务”（Agent 任务成功率测试）、3D 编程、前端设计、网站构建及办公自动化（财务建模与研报生成）等多个维度，详细展示了该模型在处理复杂、多步骤任务时的表现。测评结果显示，M2.7 在指令遵循、工具调用及长上下文处理（如生成万字研报且无幻觉）方面表现出色，但也存在视觉理解能力缺失及格式排版的小瑕疵。此外，文章还简要介绍了 MiniMax 采用“AI 辅助构建 AI”的数据飞轮迭代模式，为理解该模型的进化路径提供了视角。

💡 主要观点

- M2.7 在复杂 Agent 任务中表现出极强的指令遵循与多步工具调用能力。 在涉及联网搜索、数据整理、可视化图表生成及自动化发布等长链路任务中，模型能够实现 One-shot 一次性交付，展现了成熟的 Agent 编排能力。

长上下文处理能力显著，在万字研报生成中未出现幻觉。 模型在处理大规模财务数据分析与报告撰写时，保持了极高的数据准确性和逻辑连贯性，证明了其在专业办公场景下的实用价值。

MiniMax 正在构建“AI 辅助构建 AI”的数据飞轮。 模型迭代并非完全依赖人工，而是通过 AI 构建的 Agent Harness 系统参与训练与评测，实现了模型自我迭代的闭环。

模型仍存在局限性，主要体现在视觉理解与格式排版的精细度上。 虽然逻辑和内容生成能力强，但在处理复杂图表渲染、文档排版细节及视觉输入理解方面，仍需人工进行后续微调。

💬 文章金句

- M2.7 在龙虾上的任务成功率还是挺高的，前面我这 2 个 case 都是 one shot，一次生成。

最主要是，这份近万字的研报，它竟然没有出现任何的幻觉问题，这说明 M2.7 在长任务上的上下文能力是真滴恐怖。
简单说就是，他们用 AI 搞了一个 Agent harness，然后用这个系统去训练、评测模型，人类把控方向，模型负责构建，最终形成模型迭代自己的数据飞轮。

📊 文章信息

AI 评分：84

来源：沃垠AI

作者： (沃垠AI)

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3113

标签： MiniMax M2.7, AI Agent, LLM评测, Agentic Workflow, 办公自动化

阅读完整文章

真实测评 MiniMax M2.7，不吹不夸，它到底什么水平？

🤖 問 AI