中科大团队提出 LCPO 方法,仅用 800 条数据和 50 步训练,即可将大模型推理长度减半,同时保持甚至提升准确率,已被 ICLR 2026 接收。
📝 详细摘要
本文介绍了中科大团队被 ICLR 2026 接收的新工作 LCPO(Length Controlled Preference Optimization)。该工作针对大型推理模型(LRMs)在长思维链(Long CoT)中普遍存在的「过度思考」问题,提出了一种极致轻量的解决方案。研究团队首先通过实验发现,模型自身的生成空间中本就存在既短又对的推理路径,只是未被激活。基于此洞察,他们设计了一套仅需 800 条训练数据、50 步训练(约 10.4 A100 小时)的偏好优化方法。LCPO 通过分析并平衡传统偏好优化方法中隐式的负对数似然损失(NLL Loss)干扰,让模型纯粹聚焦于学习「短且对」的偏好。实验表明,该方法在 DeepSeek-R1-Distill-Qwen 系列模型上,能将推理长度降低超过 50%,同时准确率基本保持甚至略有提升,且该能力可泛化到数学之外的通用任务上。
💡 主要观点
- 大模型「过度思考」问题普遍存在,且会降低效率和准确率。 大型推理模型在处理简单问题时,常会生成过长的推理链,不仅增加计算成本和延迟,还可能因「想太多」而引入错误。
💬 文章金句
- 大模型的生成空间中本就蕴藏着高效推理路径,我们只需用精巧的信号把这种思维「引导」出来,而不必大规模「改造」。
- 短回答(长度排名靠前的那些)准确率几乎不降,而长回答(排名靠后的)准确率反而暴跌。
- 模型天生就会简洁推理,只不过它的「默认出厂设置」偏啰嗦。
📊 文章信息
AI 初评:86
来源:PaperWeekly
作者:PaperWeekly
分类:人工智能
语言:中文
阅读时间:10 分钟
字数:2415
标签: 大语言模型, 推理模型, CoT, 过度思考, 偏好优化