大模型自信且短视！Next-ToBE 破除 Next Token 预测诅咒

📌 一句话摘要

华东师范大学与复旦大学团队在 ICLR 2026 提出 Next-ToBE 方法，通过将 Next Token Prediction 的 one-hot 目标分布替换为覆盖未来窗口的软目标分布，以轻量方式激活大模型的前瞻能力，在数学推理、代码生成等任务上显著提升性能。

📝 详细摘要

本文报道了华东师范大学与复旦大学团队在 ICLR 2026 上发表的工作 Next-ToBE（Next Token-Bag Exploitation）。文章指出，大语言模型基于 Next Token Prediction（NTP）的训练范式本质上短视，导致模型在长程推理任务中表现不佳。作者通过实验发现，大模型当前的预测分布中已隐含对未来 token 的预判，但 NTP 的 one-hot 目标分布压制了这种前瞻能力。Next-ToBE 不改变模型结构，仅修改训练目标：将传统 NTP 中单一正确答案的 one-hot 分布替换为覆盖未来 k 个 token 的软目标分布，让模型在预测当前 token 的同时兼顾未来 token 的分布。该方法通过时空结构化加权（结合模型先验概率和 token 间语义关联）构造未来 token 分布，并保留 NTP 作为主项以保证局部稳定性。在 Qwen2.5-Math、Llama3.1-8B 等基座模型上的 36 组对比实验中，Next-ToBE 在 35 组中取得最优结果，同时训练开销低于 Multi-Token Prediction 方法。文章还发现，模型在适度不确定的状态下反而表现出更强的推理能力，揭示了置信度与推理能力之间的深层博弈。

💡 主要观点

- 大模型当前的预测分布中已隐含对未来 token 的预判，但 NTP 的 one-hot 目标分布压制了这种前瞻能力。 作者提出 Future-tokens Hit Rate（FtHR）指标，发现当前步输出分布中概率最高的 token 已覆盖相当比例的未来 token，且未来 token 在当前分布中排名越高，后续生成正确率也越高。

Next-ToBE 通过将 one-hot 目标分布替换为覆盖未来窗口的软目标分布，以轻量方式激活模型的前瞻能力。 该方法不改变模型结构，仅修改训练目标：保留 NTP 作为主项，引入未来 k 个 token 的软目标作为辅助监督，并通过时空结构化加权（模型先验概率 + token 间语义关联）构造目标分布。

模型在适度不确定的状态下反而表现出更强的推理能力，揭示了置信度与推理能力之间的深层博弈。 随着超参 λ 增大，下一 token 置信度下降，但推理准确率先升后降呈倒 U 形，表明有效的长程推理来自于对确定性的克制，而非极致的局部自信。

💬 文章金句

- 昨日的英雄，往往也最容易成为今日的枷锁。

大模型未必不会「想远一点」，它只是被长期训练成了「只能看下一步」。
与其执着于 Next-Token，不如尝试 Next-ToBE --- Next Token-Bag Exploitation。
有效的长程推理，往往来自于对确定性的克制。与其追求极致的笃定，不如为未来保留空间。
真正的智慧，从不是每一步都绝对正确的僵化，而是那份在流动与开放中与不确定性共舞的觉知。

📊 文章信息

AI 初评：87

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3712

标签： Next Token Prediction, Next-ToBE, 大模型训练, 长程推理, ICLR 2026

阅读完整文章

大模型自信且短视！Next-ToBE 破除 Next Token 预测诅咒 | ICLR'26

🤖 問 AI