大模型高效推理新答案：ICLR 2026 提出 Balanced Thinking，精度提升 10.0 的同时，推理长度直降 35.4%

📌 一句话摘要

ICLR 2026 论文提出 ReBalance 方法，通过置信度信号动态调控大模型推理过程，在精度提升 10.0 的同时将推理长度降低 35.4%，系统性地引入 Balanced Thinking 这一高效推理新视角。

📝 详细摘要

本文报道了哈尔滨工业大学（深圳）等机构在 ICLR 2026 上发表的研究工作，提出了 ReBalance 方法和 Balanced Thinking 概念。研究指出，大模型高效推理的核心挑战并非简单的「过度思考」，而是「思考失衡」——模型在简单问题上过度冗余，在复杂问题上又过早收敛。ReBalance 利用模型自身的置信度信号作为连续控制信号，通过离线数据采集构建引导向量，在推理过程中实时动态调控模型内部状态，无需额外训练即可实现推理行为的自适应引导。实验在 0.5B 至 32B 参数的四个模型、九个基准测试上验证了有效性，数学推理任务中 Pass@1 准确率最高提升 10.0 个百分点，生成长度最多压缩 35.4%。该方法在非数学任务如 GPQA-D、StrategyCode 和 LiveCodeBench 上也展现出稳定的跨领域泛化能力。

💡 主要观点

- 高效推理的核心是维持思考平衡，而非简单压缩推理长度。 过度思考与思考不足是两种不同的失衡模式，前者在正确路径显现后仍冗余延展，后者在探索未充分时仓促收敛。一刀切地缩短推理链会牺牲准确率。

模型置信度是推理状态的可靠连续信号，可用于动态调控。 过度思考时置信度波动明显，思考不足时置信度持续偏高且波动低。置信度作为可在线观测的状态指标，为细粒度推理控制提供了可能。

ReBalance 通过潜空间引导实现无需训练的实时推理调控。 方法分两阶段：离线从 hidden states 提取失衡状态原型构建引导向量，在线根据实时置信度动态确定引导方向与强度，全程无需重新训练或辅助模型。

ReBalance 在提升准确率的同时显著压缩推理长度。 在数学推理任务中最高实现 10.0 个百分点的 Pass@1 提升和 35.4% 的长度压缩，在 GPQA-D 等非数学任务上同样有效，且能自适应区分正确与错误样本的推理需求。

💬 文章金句

- 高效推理的关键并非盲目压缩推理长度，而是在过度思考与思考不足之间维持动态平衡。

ReBalance 利用模型自身的置信度信号，在思考过程中实时调控其内部状态，无需额外训练即可实现推理行为的动态引导。
当目标从「缩短推理链」转变为「维持推理过程的平衡」时，置信度自然成为连续可靠的控制信号，而潜空间引导则成为轻量且高效的干预机制。
模型不应一味追求缩短推理，而应在恰当的时机停止冗余思考，在必要时继续深入探索，从而实现简洁性与充分性的统一。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2679

标签： Balanced Thinking, ReBalance, 高效推理, 大模型, ICLR 2026

阅读完整文章

大模型高效推理新答案：ICLR 2026 提出 Balanced Thinking，精度提升 10.0 的同时，推理长度直降 35.4%

🤖 問 AI