ACL 2026｜答得更准还写得更短？华为泰勒实验室提出 SHAPE，给 LLM 推理装了个「推理税」

📌 一句话摘要

华为泰勒实验室联合北大、上财提出 SHAPE 框架，通过「推理势能」估计和「推理税」机制，在强化学习训练中同时提升 LLM 数学推理准确率约 3% 并降低 token 消耗约 30%，该工作已被 ACL 2026 接收。

📝 详细摘要

本文详细介绍了华为泰勒实验室、北京大学和上海财经大学联合提出的 SHAPE（Stage-aware Hierarchical Advantage via Potential Estimation）框架，该工作已被 ACL 2026 主会接收。SHAPE 旨在解决 LLM 推理强化学习中的「稀疏信号」困境——传统方法（如 GRPO）仅在推理链末尾给出对错信号，无法指导中间步骤。SHAPE 的核心创新在于三阶段机制：首先，利用 token 预测熵将推理链切分为语义段落，并通过多次短 rollout 估计每个段落边界的「推理势能」；其次，借鉴势函数奖励塑形（PBRS）设计「推理税」机制，根据势能变化和段落长度动态计算段级奖励，在推理早期鼓励探索、后期约束冗余；最后，通过 token 级信用再分配，利用熵值放大关键决策点的信号。实验表明，在 DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B 和 Qwen3-4B 三个基座模型上，SHAPE 在五个数学推理 benchmark 上平均提升准确率约 3%，token 消耗直降 30%。消融实验验证了熵分段、token 级信用再分配和折扣因子的有效性。深度分析进一步揭示，SHAPE 训练后的模型学会了将推理资源集中在低势能（困惑）阶段，并有效消除了 GRPO 在难题上的推理坍缩现象。

💡 主要观点

- SHAPE 通过「推理势能」估计为 LLM 推理链提供密集的过程监督信号。 利用 token 预测熵切分推理段落后，在每个段落边界进行多次短 rollout 并统计答对率作为「推理势能」，相邻段落的势能差直接反映推理进展，解决了传统 GRPO 仅在末尾提供稀疏信号的问题。

「推理税」机制同时实现了阶段感知和效率约束。 借鉴势函数奖励塑形，将动态折扣因子与段落长度挂钩：推理早期势能低、税几乎为零以鼓励探索；后期势能高、税加重以惩罚冗余。该机制迫使模型在关键突破后简洁表达，避免「写多保平安」。

SHAPE 在提升准确率的同时大幅降低 token 消耗，并消除推理坍缩。 在多个模型和 benchmark 上，准确率平均提升约 3%，token 消耗直降 30%。深度分析显示，SHAPE 有效消除了 GRPO 在难题上因上下文上限导致的异常 spike 分布，模型学会了按难度动态分配 token 预算。

💬 文章金句

- 不仅告诉模型每一步推得对不对，还让它为啰嗦付出代价。

一步好的推理应该同时满足三件事：得有实质进展、越难的阶段突破越值钱、越简洁越好。
SHAPE 的核心贡献不仅在于具体的准确率和效率数字，更在于提出了推理税这一优雅的机制设计范式。
模型学会了把脑子集中在最需要突破的地方。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2556

标签： SHAPE, LLM 推理, 强化学习, 过程奖励, 推理税

阅读完整文章

ACL 2026｜答得更准还写得更短？华为泰勒实验室提出 SHAPE，给 LLM 推理装了个「推理税」

🤖 問 AI