← 回總覽

ICLR 2026 | 800 条数据治愈“过度思考”,大模型 CoT 减半还更准

📅 2026-05-20 13:07 PaperWeekly 人工智能 2 分鐘 1320 字 評分: 86
大语言模型 推理模型 CoT 过度思考 偏好优化
📌 一句话摘要 中科大团队提出 LCPO 方法,仅用 800 条数据和 50 步训练,即可将大模型推理长度减半,同时保持甚至提升准确率,已被 ICLR 2026 接收。 📝 详细摘要 本文介绍了中科大团队被 ICLR 2026 接收的新工作 LCPO(Length Controlled Preference Optimization)。该工作针对大型推理模型(LRMs)在长思维链(Long CoT)中普遍存在的「过度思考」问题,提出了一种极致轻量的解决方案。研究团队首先通过实验发现,模型自身的生成空间中本就存在既短又对的推理路径,只是未被激活。基于此洞察,他们设计了一套仅需 800 条训练

📌 一句话摘要

中科大团队提出 LCPO 方法,仅用 800 条数据和 50 步训练,即可将大模型推理长度减半,同时保持甚至提升准确率,已被 ICLR 2026 接收。

📝 详细摘要

本文介绍了中科大团队被 ICLR 2026 接收的新工作 LCPO(Length Controlled Preference Optimization)。该工作针对大型推理模型(LRMs)在长思维链(Long CoT)中普遍存在的「过度思考」问题,提出了一种极致轻量的解决方案。研究团队首先通过实验发现,模型自身的生成空间中本就存在既短又对的推理路径,只是未被激活。基于此洞察,他们设计了一套仅需 800 条训练数据、50 步训练(约 10.4 A100 小时)的偏好优化方法。LCPO 通过分析并平衡传统偏好优化方法中隐式的负对数似然损失(NLL Loss)干扰,让模型纯粹聚焦于学习「短且对」的偏好。实验表明,该方法在 DeepSeek-R1-Distill-Qwen 系列模型上,能将推理长度降低超过 50%,同时准确率基本保持甚至略有提升,且该能力可泛化到数学之外的通用任务上。

💡 主要观点

- 大模型「过度思考」问题普遍存在,且会降低效率和准确率。 大型推理模型在处理简单问题时,常会生成过长的推理链,不仅增加计算成本和延迟,还可能因「想太多」而引入错误。

模型生成空间中本就存在高效推理路径,只需引导而非改造。 实验发现,模型对同一问题生成的短回答准确率几乎不降,而长回答准确率暴跌,说明模型「天生」具备简洁推理能力,只是默认输出偏向啰嗦。
LCPO 方法以极低成本实现推理长度减半,性能不降反升。 仅需 800 条数据、50 步训练(约 10.4 A100 小时),即可将推理长度降低超 50%,准确率基本保持,且该能力可泛化到数学之外的通用任务。

💬 文章金句

- 大模型的生成空间中本就蕴藏着高效推理路径,我们只需用精巧的信号把这种思维「引导」出来,而不必大规模「改造」。

  • 短回答(长度排名靠前的那些)准确率几乎不降,而长回答(排名靠后的)准确率反而暴跌。
  • 模型天生就会简洁推理,只不过它的「默认出厂设置」偏啰嗦。

📊 文章信息

AI 初评:86

来源:PaperWeekly

作者:PaperWeekly

分类:人工智能

语言:中文

阅读时间:10 分钟

字数:2415

标签: 大语言模型, 推理模型, CoT, 过度思考, 偏好优化

阅读完整文章

查看原文 → 發佈: 2026-05-20 13:07:00 收錄: 2026-05-20 20:00:58

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。