← 回總覽

ACL 2026|答得更准还写得更短?华为泰勒实验室提出 SHAPE,给 LLM 推理装了个「推理税」

📅 2026-04-28 15:41 机器之心 人工智能 2 分鐘 1676 字 評分: 88
SHAPE LLM 推理 强化学习 过程奖励 推理税
📌 一句话摘要 华为泰勒实验室联合北大、上财提出 SHAPE 框架,通过「推理势能」估计和「推理税」机制,在强化学习训练中同时提升 LLM 数学推理准确率约 3% 并降低 token 消耗约 30%,该工作已被 ACL 2026 接收。 📝 详细摘要 本文详细介绍了华为泰勒实验室、北京大学和上海财经大学联合提出的 SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation)框架,该工作已被 ACL 2026 主会接收。SHAPE 旨在解决 LLM 推理强化学习中的「稀疏信号」困境——传统方法(如 GRPO)仅在推理链末

📌 一句话摘要

华为泰勒实验室联合北大、上财提出 SHAPE 框架,通过「推理势能」估计和「推理税」机制,在强化学习训练中同时提升 LLM 数学推理准确率约 3% 并降低 token 消耗约 30%,该工作已被 ACL 2026 接收。

📝 详细摘要

本文详细介绍了华为泰勒实验室、北京大学和上海财经大学联合提出的 SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation)框架,该工作已被 ACL 2026 主会接收。SHAPE 旨在解决 LLM 推理强化学习中的「稀疏信号」困境——传统方法(如 GRPO)仅在推理链末尾给出对错信号,无法指导中间步骤。SHAPE 的核心创新在于三阶段机制:首先,利用 token 预测熵将推理链切分为语义段落,并通过多次短 rollout 估计每个段落边界的「推理势能」;其次,借鉴势函数奖励塑形(PBRS)设计「推理税」机制,根据势能变化和段落长度动态计算段级奖励,在推理早期鼓励探索、后期约束冗余;最后,通过 token 级信用再分配,利用熵值放大关键决策点的信号。实验表明,在 DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B 和 Qwen3-4B 三个基座模型上,SHAPE 在五个数学推理 benchmark 上平均提升准确率约 3%,token 消耗直降 30%。消融实验验证了熵分段、token 级信用再分配和折扣因子的有效性。深度分析进一步揭示,SHAPE 训练后的模型学会了将推理资源集中在低势能(困惑)阶段,并有效消除了 GRPO 在难题上的推理坍缩现象。

💡 主要观点

- SHAPE 通过「推理势能」估计为 LLM 推理链提供密集的过程监督信号。 利用 token 预测熵切分推理段落后,在每个段落边界进行多次短 rollout 并统计答对率作为「推理势能」,相邻段落的势能差直接反映推理进展,解决了传统 GRPO 仅在末尾提供稀疏信号的问题。

「推理税」机制同时实现了阶段感知和效率约束。 借鉴势函数奖励塑形,将动态折扣因子与段落长度挂钩:推理早期势能低、税几乎为零以鼓励探索;后期势能高、税加重以惩罚冗余。该机制迫使模型在关键突破后简洁表达,避免「写多保平安」。
SHAPE 在提升准确率的同时大幅降低 token 消耗,并消除推理坍缩。 在多个模型和 benchmark 上,准确率平均提升约 3%,token 消耗直降 30%。深度分析显示,SHAPE 有效消除了 GRPO 在难题上因上下文上限导致的异常 spike 分布,模型学会了按难度动态分配 token 预算。

💬 文章金句

- 不仅告诉模型每一步推得对不对,还让它为啰嗦付出代价。

  • 一步好的推理应该同时满足三件事:得有实质进展、越难的阶段突破越值钱、越简洁越好。
  • SHAPE 的核心贡献不仅在于具体的准确率和效率数字,更在于提出了推理税这一优雅的机制设计范式。
  • 模型学会了把脑子集中在最需要突破的地方。

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2556

标签: SHAPE, LLM 推理, 强化学习, 过程奖励, 推理税

阅读完整文章

查看原文 → 發佈: 2026-04-28 15:41:00 收錄: 2026-04-28 20:00:17

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。