← 回總覽

不改架构、不加算力:Nous Research 巧用 Token 叠加,预训练提速 2.5 倍

📅 2026-05-14 17:36 PaperWeekly 人工智能 2 分鐘 1700 字 評分: 86
Token Superposition Training 预训练加速 Nous Research MoE 多热交叉熵
📌 一句话摘要 Nous Research 提出 Token Superposition Training (TST),通过在预训练前半程将连续 token 的 embedding 平均并预测下一组 token,在不改模型架构和推理方式的前提下,实现 10B MoE 模型同等 loss 下最高 2.5 倍的预训练提速。 📝 详细摘要 本文详细介绍了 Nous Research 提出的 Token Superposition Training (TST) 方法。TST 的核心思想是在预训练的前半程(叠加阶段),将连续 s 个 token 的 embedding 取平均作为输入,并让模型预测下

📌 一句话摘要

Nous Research 提出 Token Superposition Training (TST),通过在预训练前半程将连续 token 的 embedding 平均并预测下一组 token,在不改模型架构和推理方式的前提下,实现 10B MoE 模型同等 loss 下最高 2.5 倍的预训练提速。

📝 详细摘要

本文详细介绍了 Nous Research 提出的 Token Superposition Training (TST) 方法。TST 的核心思想是在预训练的前半程(叠加阶段),将连续 s 个 token 的 embedding 取平均作为输入,并让模型预测下一组 s 个 token,从而在相同计算量下处理更多原始 token。后半程(恢复阶段)再切回标准逐 token 预测。该方法不改模型架构、并行策略、优化器或分词器,训练结束后模型仍是标准自回归结构。在 10B-A1B MoE 实验中,TST 用不到 40% 的训练时间达到基线模型的最终损失水平,对应约 2.5 倍的预训练提速。文章还详细解释了输入端的张量折叠、输出端的多热交叉熵损失 (MCE)、超参数影响(step ratio 和 bag size 的 U 型趋势)、以及消融实验证明输入与输出叠加机制的独立性。最后指出,跨阶段保持输入输出表示对齐是 TST 收益延续的关键。

💡 主要观点

- TST 通过叠加 token 表示和预测目标,在不改架构下提升预训练吞吐。 在叠加阶段,将连续 s 个 token 的 embedding 平均后输入模型,并预测下一组 s 个 token,使模型在相同 FLOPs 下处理更多原始 token。

TST 在 10B MoE 模型上实现同等 loss 下最高 2.5 倍预训练提速。 实验表明,TST 用不到 40% 的训练时间即可达到基线模型的最终损失水平,显著提升训练效率。
输入叠加与输出叠加机制独立生效,结合使用收益最大。 消融实验证明,单独应用输入叠加或输出叠加均能带来增益,且两者正交,结合使用可取得最大综合收益。
跨阶段保持输入输出表示对齐是 TST 收益延续的关键。 在恢复阶段重置输入 embedding 层和输出 LM Head 会导致前期积累的收益完全消失,证明表示对齐的必要性。

💬 文章金句

- TST 不改模型架构、并行策略、优化器、分词器和训练数据,只在预训练前半程把连续 token 的 embedding 临时平均成一个新表示,并让模型预测下一组 token,后半程再切回标准逐 token 预测训练。

  • 在 10B-A1B MoE 实验中,TST 用不到 40% 的训练时间达到基线模型的最终损失水平,对应该设置下同等损失约 2.5 倍的预训练提速。
  • TST 本质上是用更多数据消耗,换同等计算下更低的训练 loss。
  • 跨阶段保持输入输出表示对齐,很可能是 TST 收益能够延续到标准训练阶段的重要条件。

📊 文章信息

AI 初评:86

来源:PaperWeekly

作者:PaperWeekly

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2918

标签: Token Superposition Training, 预训练加速, Nous Research, MoE, 多热交叉熵

阅读完整文章

查看原文 → 發佈: 2026-05-14 17:36:00 收錄: 2026-05-15 00:00:03

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。