MiniMax 预告了 M3 模型,其核心架构基于 GQA 的动态块稀疏注意力,在 1M token 上下文上速度提升显著。
📝 详细摘要
作者根据 MiniMax AI 工程负责人 Skyler Miao 的预告,介绍了即将发布的 M3 模型。M3 的核心架构是基于 GQA 的动态块稀疏注意力,通过轻量索引分支快速筛选相关 token 块,再进行稀疏注意力计算。这使得在 1M token 上下文上,Prefill 速度比 M2 快 9.7 倍,解码速度快 15.6 倍。作者认为,这将使百万 token 级别的 Agent 任务真正落地。
📊 文章信息
AI 初评:85
来源:Berryxia.AI(@berryxia)
作者:Berryxia.AI
分类:人工智能
语言:中文
阅读时间:2 分钟
字数:396
标签: MiniMax, M3, 稀疏注意力, 长上下文, GQA