华东师范大学与复旦大学团队在 ICLR 2026 提出 Next-ToBE 方法,通过将 Next Token Prediction 的 one-hot 目标分布替换为覆盖未来窗口的软目标分布,以轻量方式激活大模型的前瞻能力,在数学推理、代码生成等任务上显著提升性能。
📝 详细摘要
本文报道了华东师范大学与复旦大学团队在 ICLR 2026 上发表的工作 Next-ToBE(Next Token-Bag Exploitation)。文章指出,大语言模型基于 Next Token Prediction(NTP)的训练范式本质上短视,导致模型在长程推理任务中表现不佳。作者通过实验发现,大模型当前的预测分布中已隐含对未来 token 的预判,但 NTP 的 one-hot 目标分布压制了这种前瞻能力。Next-ToBE 不改变模型结构,仅修改训练目标:将传统 NTP 中单一正确答案的 one-hot 分布替换为覆盖未来 k 个 token 的软目标分布,让模型在预测当前 token 的同时兼顾未来 token 的分布。该方法通过时空结构化加权(结合模型先验概率和 token 间语义关联)构造未来 token 分布,并保留 NTP 作为主项以保证局部稳定性。在 Qwen2.5-Math、Llama3.1-8B 等基座模型上的 36 组对比实验中,Next-ToBE 在 35 组中取得最优结果,同时训练开销低于 Multi-Token Prediction 方法。文章还发现,模型在适度不确定的状态下反而表现出更强的推理能力,揭示了置信度与推理能力之间的深层博弈。
💡 主要观点
- 大模型当前的预测分布中已隐含对未来 token 的预判,但 NTP 的 one-hot 目标分布压制了这种前瞻能力。 作者提出 Future-tokens Hit Rate(FtHR)指标,发现当前步输出分布中概率最高的 token 已覆盖相当比例的未来 token,且未来 token 在当前分布中排名越高,后续生成正确率也越高。
💬 文章金句
- 昨日的英雄,往往也最容易成为今日的枷锁。
- 大模型未必不会「想远一点」,它只是被长期训练成了「只能看下一步」。
- 与其执着于 Next-Token,不如尝试 Next-ToBE --- Next Token-Bag Exploitation。
- 有效的长程推理,往往来自于对确定性的克制。与其追求极致的笃定,不如为未来保留空间。
- 真正的智慧,从不是每一步都绝对正确的僵化,而是那份在流动与开放中与不确定性共舞的觉知。
📊 文章信息
AI 初评:87
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3712
标签: Next Token Prediction, Next-ToBE, 大模型训练, 长程推理, ICLR 2026