Nous Research 团队提出 Token Superposition Training (TST) 方法,通过将预训练早期改为粗粒度词元叠加学习,在百亿参数 MoE 模型上实现约 2.5 倍训练提速,算力成本降至原来的四成。
📝 详细摘要
本文报道了 Nous Research 团队最新提出的 Token Superposition Training (TST) 预训练方法。TST 的核心思路是将预训练拆分为两个阶段:第一阶段(词元叠加阶段)将连续多个 token 的 embedding 求平均后作为一个叠加词元输入,输出侧预测下一组 token 的集合而非单个 token,从而大幅提升单位计算量的数据吞吐量;第二阶段(恢复阶段)切回标准自回归训练,保证最终模型可正常部署。在 10B-A1B MoE 模型实验中,TST 仅消耗 baseline 约 38.7% 的 B200 GPU 时间(4768 vs 12311 小时),却训练了更多数据(2T vs 1.05T tokens),并取得了更低的 loss 和更好的下游评测指标。文章将 TST 与 DeepSeek 的系统级降本路线进行对比,指出 TST 不修改模型架构、不改变推理链路,是一种更轻量的训练提效方案,尤其适合算力有限的中小团队。
💡 主要观点
- TST 将预训练拆分为粗粒度叠加阶段和标准恢复阶段,实现即插即用式训练提效。 第一阶段将连续多个 token 压缩为叠加词元,输入侧求平均、输出侧预测 token 集合,大幅提升数据吞吐;第二阶段切回标准 next-token prediction,保证最终模型可正常部署,不改变推理架构。
💬 文章金句
- TST 只用了约四成 GPU 时间,就跑出了更低的 loss 和更好的下游指标。
- TST 是让模型在训练早期换一种 token 粒度学习。它不是让模型变小,也不是直接让推理变快,而是让预训练早期的每一步都更'值钱'。
- TST 省下的不只是一次训练的 GPU 小时,更是整个实验周期的试错成本。
- TST 最大的看头,不是它设计了多复杂的新架构,而是它点醒了一件事:训练降本,别总盯着模型结构开刀。
- TST 只改变训练过程,不改变推理模型。
📊 文章信息
AI 初评:86
来源:InfoQ 中文
作者:InfoQ 中文
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4031
标签: Token Superposition Training, 预训练, 训练效率, Nous Research, MoE