SubQ：全球首个基于 SSA 架构的 12M token 上下文 LLM 发布

📌 一句话摘要

SubQ 模型采用 Subquadratic Sparse Attention 架构，实现 12M token 实用上下文窗口，在 1M token 长度下比 FlashAttention 快 52 倍，成本低于 Opus 的 5%。

📝 详细摘要

该推文介绍了 Subquadratic 团队发布的 SubQ 模型，这是全球首个基于 Subquadratic Sparse Attention (SSA) 架构的前沿 LLM。SSA 的核心创新在于内容依赖的选择机制，每个 query 只动态挑选真正相关的 key 位置进行注意力计算，实现了线性缩放，避免了传统 Transformer O(n²) 的计算复杂度。实测在 B200 GPU 上，128K token 预填充加速 7.2 倍，1M token 加速 52.2 倍。模型采用三阶段训练（预训练 → SFT → RL），特别强化长上下文下的可靠检索与多跳推理，针对企业真实场景优化，旨在解决名义上下文窗口与功能上下文窗口之间的鸿沟。推文还提供了 SubQ Code 的试用申请链接。

📊 文章信息

AI 初评：86

来源：meng shao(@shao__meng)

作者：meng shao

分类：人工智能

语言：中文

阅读时间：4 分钟

字数：866

标签： SubQ, SSA, Subquadratic Sparse Attention, 长上下文, LLM

阅读推文

SubQ：全球首个基于 SSA 架构的 12M token 上下文 LLM 发布

🤖 問 AI