MiniMax M3 模型预告：基于动态块稀疏注意力的长上下文新架构

📅 2026-05-27 08:24 Berryxia.AI 人工智能 1 分鐘 632 字評分: 85

📌 一句话摘要 MiniMax 预告了 M3 模型，其核心架构基于 GQA 的动态块稀疏注意力，在 1M token 上下文上速度提升显著。 📝 详细摘要作者根据 MiniMax AI 工程负责人 Skyler Miao 的预告，介绍了即将发布的 M3 模型。M3 的核心架构是基于 GQA 的动态块稀疏注意力，通过轻量索引分支快速筛选相关 token 块，再进行稀疏注意力计算。这使得在 1M token 上下文上，Prefill 速度比 M2 快 9.7 倍，解码速度快 15.6 倍。作者认为，这将使百万 token 级别的 Agent 任务真正落地。 📊 文章信息 AI 初评：85

📌 一句话摘要

MiniMax 预告了 M3 模型，其核心架构基于 GQA 的动态块稀疏注意力，在 1M token 上下文上速度提升显著。

📝 详细摘要

作者根据 MiniMax AI 工程负责人 Skyler Miao 的预告，介绍了即将发布的 M3 模型。M3 的核心架构是基于 GQA 的动态块稀疏注意力，通过轻量索引分支快速筛选相关 token 块，再进行稀疏注意力计算。这使得在 1M token 上下文上，Prefill 速度比 M2 快 9.7 倍，解码速度快 15.6 倍。作者认为，这将使百万 token 级别的 Agent 任务真正落地。

📊 文章信息

AI 初评：85

来源：Berryxia.AI(@berryxia)

作者：Berryxia.AI

分类：人工智能

语言：中文

阅读时间：2 分钟

字数：396

标签： MiniMax, M3, 稀疏注意力, 长上下文, GQA

阅读推文

查看原文 → 發佈: 2026-05-27 08:24:39 收錄: 2026-05-27 16:00:38

MiniMax M3 模型预告：基于动态块稀疏注意力的长上下文新架构

🤖 問 AI