← 回總覽

SubQ:全球首个基于 SSA 架构的 12M token 上下文 LLM 发布

📅 2026-05-06 09:12 meng shao 人工智能 1 分鐘 852 字 評分: 86
SubQ SSA Subquadratic Sparse Attention 长上下文 LLM
📌 一句话摘要 SubQ 模型采用 Subquadratic Sparse Attention 架构,实现 12M token 实用上下文窗口,在 1M token 长度下比 FlashAttention 快 52 倍,成本低于 Opus 的 5%。 📝 详细摘要 该推文介绍了 Subquadratic 团队发布的 SubQ 模型,这是全球首个基于 Subquadratic Sparse Attention (SSA) 架构的前沿 LLM。SSA 的核心创新在于内容依赖的选择机制,每个 query 只动态挑选真正相关的 key 位置进行注意力计算,实现了线性缩放,避免了传统 Transfo

📌 一句话摘要

SubQ 模型采用 Subquadratic Sparse Attention 架构,实现 12M token 实用上下文窗口,在 1M token 长度下比 FlashAttention 快 52 倍,成本低于 Opus 的 5%。

📝 详细摘要

该推文介绍了 Subquadratic 团队发布的 SubQ 模型,这是全球首个基于 Subquadratic Sparse Attention (SSA) 架构的前沿 LLM。SSA 的核心创新在于内容依赖的选择机制,每个 query 只动态挑选真正相关的 key 位置进行注意力计算,实现了线性缩放,避免了传统 Transformer O(n²) 的计算复杂度。实测在 B200 GPU 上,128K token 预填充加速 7.2 倍,1M token 加速 52.2 倍。模型采用三阶段训练(预训练 → SFT → RL),特别强化长上下文下的可靠检索与多跳推理,针对企业真实场景优化,旨在解决名义上下文窗口与功能上下文窗口之间的鸿沟。推文还提供了 SubQ Code 的试用申请链接。

📊 文章信息

AI 初评:86

来源:meng shao(@shao__meng)

作者:meng shao

分类:人工智能

语言:中文

阅读时间:4 分钟

字数:866

标签: SubQ, SSA, Subquadratic Sparse Attention, 长上下文, LLM

阅读推文

查看原文 → 發佈: 2026-05-06 09:12:52 收錄: 2026-05-06 12:00:29

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。