← 回總覽

论文秀 Live#36|ICLR 独作突破×Oral 精选× LLM 训练推理新方法

📅 2026-04-13 17:11 蚂蚁技术 AntTech 人工智能 2 分鐘 1371 字 評分: 84
ICLR 2026 大语言模型 预训练优化 强化学习 推理加速
📌 一句话摘要 本文预告并介绍了蚂蚁技术团队将在直播中分享的三篇 ICLR 2026 论文,聚焦于 LLM 预训练调度优化、强化学习熵正则化改进以及扩散模型推理加速三大前沿方向。 📝 详细摘要 文章是蚂蚁技术团队对其「论文秀 Live #36」直播活动的预告和内容摘要。直播将重点解读三篇入选 ICLR 2026 的论文成果,这些研究直击大语言模型开发中的核心痛点。第一篇论文 WSM 提出了一种通过检查点合并实现无衰减学习率调度的新框架,将传统衰减策略统一为模型平均方案,在多个基准上超越了主流方法。第二篇论文深入分析了熵正则化在 LLM 强化学习中失效的机理,并提出了一种截断熵正则算法 AE

📌 一句话摘要

本文预告并介绍了蚂蚁技术团队将在直播中分享的三篇 ICLR 2026 论文,聚焦于 LLM 预训练调度优化、强化学习熵正则化改进以及扩散模型推理加速三大前沿方向。

📝 详细摘要

文章是蚂蚁技术团队对其「论文秀 Live #36」直播活动的预告和内容摘要。直播将重点解读三篇入选 ICLR 2026 的论文成果,这些研究直击大语言模型开发中的核心痛点。第一篇论文 WSM 提出了一种通过检查点合并实现无衰减学习率调度的新框架,将传统衰减策略统一为模型平均方案,在多个基准上超越了主流方法。第二篇论文深入分析了熵正则化在 LLM 强化学习中失效的机理,并提出了一种截断熵正则算法 AEnt,以提升困难样本的学习效率。第三篇论文针对扩散大语言模型,提出了一种免训练的层次化解码策略 Hierarchy-dLLM,通过递归划分掩码区域实现并行解码,据称最高可实现 17 倍的推理加速。文章简要概括了每篇论文的核心贡献,并预告了直播嘉宾和时间。

💡 主要观点

- WSM 框架将学习率衰减与模型合并统一,为 LLM 预训练提供了更优的无衰减调度方案。 该研究建立了学习率衰减策略与模型融合之间的理论联系,提出 Warmup-Stable and Merge 框架,将余弦衰减等策略模拟为有据可依的模型平均,在 MATH 等基准上表现优于传统的 Warmup-Stable-Decay 方法。

传统熵正则化在 LLM 强化学习中效果微弱,需针对其超大响应空间特性进行改进。 研究指出,由于 LLM 响应空间巨大且最优输出稀疏,传统熵奖励机制难以有效鼓励探索。提出的截断熵正则算法 AEnt 在更小、更密集的响应子空间上进行正则化,从而更有效地强化低概率优质回答。
Hierarchy-dLLM 通过层次化并行解码策略,显著提升了扩散大语言模型的推理吞吐量。 该方法基于分散掩码更稳定的观察,递归地将连续掩码区域划分为子区域进行并行解码,并结合置信度筛选。这是一种免训练的推理加速策略,据称最高可实现 17 倍于原始解码的速度提升。

💬 文章金句

- WSM 提供了一个统一的理论基础,将各种衰减策略模拟为有据可依的模型平均方案。

  • 传统的熵正则化在大语言模型极其庞大的响应空间,以及最优输出高度稀疏的特性面前,会遭遇严重的失效问题。
  • Hierarchy-dLLM 在多个基准上取得了与基线方法相当的效果,同时显著提升吞吐,最高可达 vanilla decoding 的 17 倍。

📊 文章信息

AI 初评:84

来源:蚂蚁技术 AntTech

作者:蚂蚁技术 AntTech

分类:人工智能

语言:中文

阅读时间:8 分钟

字数:1958

标签: ICLR 2026, 大语言模型, 预训练优化, 强化学习, 推理加速

阅读完整文章

查看原文 → 發佈: 2026-04-13 17:11:00 收錄: 2026-04-14 00:00:41

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。