Hermes 团队改写预训练：算力成本降六成，DeepSeek 之后提效新路径

📌 一句话摘要

Nous Research 团队提出 Token Superposition Training (TST) 方法，通过将预训练早期改为粗粒度词元叠加学习，在百亿参数 MoE 模型上实现约 2.5 倍训练提速，算力成本降至原来的四成。

📝 详细摘要

本文报道了 Nous Research 团队最新提出的 Token Superposition Training (TST) 预训练方法。TST 的核心思路是将预训练拆分为两个阶段：第一阶段（词元叠加阶段）将连续多个 token 的 embedding 求平均后作为一个叠加词元输入，输出侧预测下一组 token 的集合而非单个 token，从而大幅提升单位计算量的数据吞吐量；第二阶段（恢复阶段）切回标准自回归训练，保证最终模型可正常部署。在 10B-A1B MoE 模型实验中，TST 仅消耗 baseline 约 38.7% 的 B200 GPU 时间（4768 vs 12311 小时），却训练了更多数据（2T vs 1.05T tokens），并取得了更低的 loss 和更好的下游评测指标。文章将 TST 与 DeepSeek 的系统级降本路线进行对比，指出 TST 不修改模型架构、不改变推理链路，是一种更轻量的训练提效方案，尤其适合算力有限的中小团队。

💡 主要观点

- TST 将预训练拆分为粗粒度叠加阶段和标准恢复阶段，实现即插即用式训练提效。 第一阶段将连续多个 token 压缩为叠加词元，输入侧求平均、输出侧预测 token 集合，大幅提升数据吞吐；第二阶段切回标准 next-token prediction，保证最终模型可正常部署，不改变推理架构。

在 10B-A1B MoE 模型上，TST 仅用约四成 GPU 时间达到更优效果，对应约 2.5 倍提速。 TST 消耗 4768 B200-hours 训练 2T tokens，baseline 消耗 12311 B200-hours 训练 1.05T tokens，TST 在更低算力成本下取得更低 loss 和更好的 HellaSwag、ARC、MMLU 等 0-shot 指标。

TST 与 DeepSeek 的系统级降本路线形成互补，代表训练降本的新方向。 DeepSeek 通过 MoE、MLA 等系统级工程压榨算力，TST 则从模型学习 token 的方式入手，不碰架构、不改变推理链路，切口更轻巧，适合算力有限的中小团队。

TST 的收益来自输入侧和输出侧两个机制的叠加，对超参选择相对稳健。 消融实验表明输入侧和输出侧单独使用均优于 baseline，完整 TST 效果最佳。bag size 在 4-8、叠加训练比例在 0.2-0.4 时表现较好，超参敏感性较低。

💬 文章金句

- TST 只用了约四成 GPU 时间，就跑出了更低的 loss 和更好的下游指标。

TST 是让模型在训练早期换一种 token 粒度学习。它不是让模型变小，也不是直接让推理变快，而是让预训练早期的每一步都更'值钱'。
TST 省下的不只是一次训练的 GPU 小时，更是整个实验周期的试错成本。
TST 最大的看头，不是它设计了多复杂的新架构，而是它点醒了一件事：训练降本，别总盯着模型结构开刀。
TST 只改变训练过程，不改变推理模型。

📊 文章信息

AI 初评：86

来源：InfoQ 中文

作者：InfoQ 中文

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4031

标签： Token Superposition Training, 预训练, 训练效率, Nous Research, MoE

阅读完整文章

Hermes 团队改写预训练：算力成本降六成，DeepSeek 之后提效新路径

🤖 問 AI