PRISM 框架为离散扩散语言模型(dLLM)设计了高效的 Test-Time Scaling 方案,通过层次化搜索、局部重掩码和自验证反馈,在数学推理和代码生成任务上以显著低于 Best-of-N 的计算成本实现了性能提升。
📝 详细摘要
本文介绍了由 Jinbin Bai 等研究者提出的 PRISM 框架,旨在解决离散扩散语言模型(dLLM)在 Test-Time Scaling 中的效率问题。与自回归模型不同,dLLM 通过并行去噪生成,传统 Best-of-N 方法会浪费大量计算在低质量轨迹上。PRISM 的核心创新包括:层次化轨迹搜索(HTS),在早期保持多样性、中期裁剪低质量轨迹、后期精修;局部重掩码分支,保留高置信 token 并仅对低置信区域重新探索;以及自验证反馈(SVF),复用模型自身作为轻量级验证器。实验表明,在 LLaDA-8B-Instruct 等模型上,PRISM 在 GSM8K、MATH-500、HumanEval 和 MBPP 等基准上实现了显著性能提升,同时相比 Best-of-N 节省了数倍的去噪计算量。该工作已被 ICML 2026 接收,为 dLLM 的高效推理扩展开辟了新路径。
💡 主要观点
- PRISM 通过层次化轨迹搜索(HTS)实现高效推理预算分配。 HTS 将推理过程分为早期随机探索、中期渐进裁剪和后期精修三个阶段,在去噪过程中动态识别并裁剪低质量轨迹,将计算资源集中到更有前景的候选上,使复杂度从 Best-of-N 的 O(NT) 降至 O(N + KT)。
💬 文章金句
- PRISM 的关键思路是把推理过程拆成三个阶段:早期随机探索、中期渐进裁剪和后期精修。
- PRISM 不会粗暴地丢弃整条轨迹重新采样,而是保留高置信部分,只对低置信位置进行重新 mask,然后从这些局部变化中生成新的分支。
- PRISM 将 verification 从「额外模型」变成了「同一模型的一次轻量自检」。
- PRISM 不只是一个更省算力的 Best-of-N 替代方案,而是离散扩散语言模型迈向高效推理系统的一块关键拼图。
📊 文章信息
AI 初评:86
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2844
标签: 离散扩散语言模型, Test-Time Scaling, PRISM, 推理优化, 自验证