ICLR 2026 | 800 条数据治愈“过度思考”，大模型 CoT 减半还更准

📌 一句话摘要

中科大团队提出 LCPO 方法，仅用 800 条数据和 50 步训练，即可将大模型推理长度减半，同时保持甚至提升准确率，已被 ICLR 2026 接收。

📝 详细摘要

本文介绍了中科大团队被 ICLR 2026 接收的新工作 LCPO（Length Controlled Preference Optimization）。该工作针对大型推理模型（LRMs）在长思维链（Long CoT）中普遍存在的「过度思考」问题，提出了一种极致轻量的解决方案。研究团队首先通过实验发现，模型自身的生成空间中本就存在既短又对的推理路径，只是未被激活。基于此洞察，他们设计了一套仅需 800 条训练数据、50 步训练（约 10.4 A100 小时）的偏好优化方法。LCPO 通过分析并平衡传统偏好优化方法中隐式的负对数似然损失（NLL Loss）干扰，让模型纯粹聚焦于学习「短且对」的偏好。实验表明，该方法在 DeepSeek-R1-Distill-Qwen 系列模型上，能将推理长度降低超过 50%，同时准确率基本保持甚至略有提升，且该能力可泛化到数学之外的通用任务上。

💡 主要观点

- 大模型「过度思考」问题普遍存在，且会降低效率和准确率。 大型推理模型在处理简单问题时，常会生成过长的推理链，不仅增加计算成本和延迟，还可能因「想太多」而引入错误。

模型生成空间中本就存在高效推理路径，只需引导而非改造。 实验发现，模型对同一问题生成的短回答准确率几乎不降，而长回答准确率暴跌，说明模型「天生」具备简洁推理能力，只是默认输出偏向啰嗦。

LCPO 方法以极低成本实现推理长度减半，性能不降反升。 仅需 800 条数据、50 步训练（约 10.4 A100 小时），即可将推理长度降低超 50%，准确率基本保持，且该能力可泛化到数学之外的通用任务。

💬 文章金句

- 大模型的生成空间中本就蕴藏着高效推理路径，我们只需用精巧的信号把这种思维「引导」出来，而不必大规模「改造」。

短回答（长度排名靠前的那些）准确率几乎不降，而长回答（排名靠后的）准确率反而暴跌。
模型天生就会简洁推理，只不过它的「默认出厂设置」偏啰嗦。

📊 文章信息

AI 初评：86

来源：PaperWeekly

作者：PaperWeekly

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2415

标签：大语言模型, 推理模型, CoT, 过度思考, 偏好优化

阅读完整文章

ICLR 2026 | 800 条数据治愈“过度思考”，大模型 CoT 减半还更准

🤖 問 AI