华为泰勒实验室联合北大、上财提出 SHAPE 框架,通过「推理势能」估计和「推理税」机制,在强化学习训练中同时提升 LLM 数学推理准确率约 3% 并降低 token 消耗约 30%,该工作已被 ACL 2026 接收。
📝 详细摘要
本文详细介绍了华为泰勒实验室、北京大学和上海财经大学联合提出的 SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation)框架,该工作已被 ACL 2026 主会接收。SHAPE 旨在解决 LLM 推理强化学习中的「稀疏信号」困境——传统方法(如 GRPO)仅在推理链末尾给出对错信号,无法指导中间步骤。SHAPE 的核心创新在于三阶段机制:首先,利用 token 预测熵将推理链切分为语义段落,并通过多次短 rollout 估计每个段落边界的「推理势能」;其次,借鉴势函数奖励塑形(PBRS)设计「推理税」机制,根据势能变化和段落长度动态计算段级奖励,在推理早期鼓励探索、后期约束冗余;最后,通过 token 级信用再分配,利用熵值放大关键决策点的信号。实验表明,在 DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B 和 Qwen3-4B 三个基座模型上,SHAPE 在五个数学推理 benchmark 上平均提升准确率约 3%,token 消耗直降 30%。消融实验验证了熵分段、token 级信用再分配和折扣因子的有效性。深度分析进一步揭示,SHAPE 训练后的模型学会了将推理资源集中在低势能(困惑)阶段,并有效消除了 GRPO 在难题上的推理坍缩现象。
💡 主要观点
- SHAPE 通过「推理势能」估计为 LLM 推理链提供密集的过程监督信号。 利用 token 预测熵切分推理段落后,在每个段落边界进行多次短 rollout 并统计答对率作为「推理势能」,相邻段落的势能差直接反映推理进展,解决了传统 GRPO 仅在末尾提供稀疏信号的问题。
💬 文章金句
- 不仅告诉模型每一步推得对不对,还让它为啰嗦付出代价。
- 一步好的推理应该同时满足三件事:得有实质进展、越难的阶段突破越值钱、越简洁越好。
- SHAPE 的核心贡献不仅在于具体的准确率和效率数字,更在于提出了推理税这一优雅的机制设计范式。
- 模型学会了把脑子集中在最需要突破的地方。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2556
标签: SHAPE, LLM 推理, 强化学习, 过程奖励, 推理税