论文秀 Live#36｜ICLR 独作突破×Oral 精选× LLM 训练推理新方法

📌 一句话摘要

本文预告并介绍了蚂蚁技术团队将在直播中分享的三篇 ICLR 2026 论文，聚焦于 LLM 预训练调度优化、强化学习熵正则化改进以及扩散模型推理加速三大前沿方向。

📝 详细摘要

文章是蚂蚁技术团队对其「论文秀 Live #36」直播活动的预告和内容摘要。直播将重点解读三篇入选 ICLR 2026 的论文成果，这些研究直击大语言模型开发中的核心痛点。第一篇论文 WSM 提出了一种通过检查点合并实现无衰减学习率调度的新框架，将传统衰减策略统一为模型平均方案，在多个基准上超越了主流方法。第二篇论文深入分析了熵正则化在 LLM 强化学习中失效的机理，并提出了一种截断熵正则算法 AEnt，以提升困难样本的学习效率。第三篇论文针对扩散大语言模型，提出了一种免训练的层次化解码策略 Hierarchy-dLLM，通过递归划分掩码区域实现并行解码，据称最高可实现 17 倍的推理加速。文章简要概括了每篇论文的核心贡献，并预告了直播嘉宾和时间。

💡 主要观点

- WSM 框架将学习率衰减与模型合并统一，为 LLM 预训练提供了更优的无衰减调度方案。 该研究建立了学习率衰减策略与模型融合之间的理论联系，提出 Warmup-Stable and Merge 框架，将余弦衰减等策略模拟为有据可依的模型平均，在 MATH 等基准上表现优于传统的 Warmup-Stable-Decay 方法。

传统熵正则化在 LLM 强化学习中效果微弱，需针对其超大响应空间特性进行改进。 研究指出，由于 LLM 响应空间巨大且最优输出稀疏，传统熵奖励机制难以有效鼓励探索。提出的截断熵正则算法 AEnt 在更小、更密集的响应子空间上进行正则化，从而更有效地强化低概率优质回答。

Hierarchy-dLLM 通过层次化并行解码策略，显著提升了扩散大语言模型的推理吞吐量。 该方法基于分散掩码更稳定的观察，递归地将连续掩码区域划分为子区域进行并行解码，并结合置信度筛选。这是一种免训练的推理加速策略，据称最高可实现 17 倍于原始解码的速度提升。

💬 文章金句

- WSM 提供了一个统一的理论基础，将各种衰减策略模拟为有据可依的模型平均方案。

传统的熵正则化在大语言模型极其庞大的响应空间，以及最优输出高度稀疏的特性面前，会遭遇严重的失效问题。
Hierarchy-dLLM 在多个基准上取得了与基线方法相当的效果，同时显著提升吞吐，最高可达 vanilla decoding 的 17 倍。

📊 文章信息

AI 初评：84

来源：蚂蚁技术 AntTech

作者：蚂蚁技术 AntTech

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1958

标签： ICLR 2026, 大语言模型, 预训练优化, 强化学习, 推理加速

阅读完整文章

论文秀 Live#36｜ICLR 独作突破×Oral 精选× LLM 训练推理新方法

🤖 問 AI