SubQ 模型采用 Subquadratic Sparse Attention 架构,实现 12M token 实用上下文窗口,在 1M token 长度下比 FlashAttention 快 52 倍,成本低于 Opus 的 5%。
📝 详细摘要
该推文介绍了 Subquadratic 团队发布的 SubQ 模型,这是全球首个基于 Subquadratic Sparse Attention (SSA) 架构的前沿 LLM。SSA 的核心创新在于内容依赖的选择机制,每个 query 只动态挑选真正相关的 key 位置进行注意力计算,实现了线性缩放,避免了传统 Transformer O(n²) 的计算复杂度。实测在 B200 GPU 上,128K token 预填充加速 7.2 倍,1M token 加速 52.2 倍。模型采用三阶段训练(预训练 → SFT → RL),特别强化长上下文下的可靠检索与多跳推理,针对企业真实场景优化,旨在解决名义上下文窗口与功能上下文窗口之间的鸿沟。推文还提供了 SubQ Code 的试用申请链接。
📊 文章信息
AI 初评:86
来源:meng shao(@shao__meng)
作者:meng shao
分类:人工智能
语言:中文
阅读时间:4 分钟
字数:866
标签: SubQ, SSA, Subquadratic Sparse Attention, 长上下文, LLM