ICML 2026｜拒绝大力出奇迹，PRISM 框架让 dLLM 也能高效 Test-Time Scaling

📌 一句话摘要

PRISM 框架为离散扩散语言模型（dLLM）设计了高效的 Test-Time Scaling 方案，通过层次化搜索、局部重掩码和自验证反馈，在数学推理和代码生成任务上以显著低于 Best-of-N 的计算成本实现了性能提升。

📝 详细摘要

本文介绍了由 Jinbin Bai 等研究者提出的 PRISM 框架，旨在解决离散扩散语言模型（dLLM）在 Test-Time Scaling 中的效率问题。与自回归模型不同，dLLM 通过并行去噪生成，传统 Best-of-N 方法会浪费大量计算在低质量轨迹上。PRISM 的核心创新包括：层次化轨迹搜索（HTS），在早期保持多样性、中期裁剪低质量轨迹、后期精修；局部重掩码分支，保留高置信 token 并仅对低置信区域重新探索；以及自验证反馈（SVF），复用模型自身作为轻量级验证器。实验表明，在 LLaDA-8B-Instruct 等模型上，PRISM 在 GSM8K、MATH-500、HumanEval 和 MBPP 等基准上实现了显著性能提升，同时相比 Best-of-N 节省了数倍的去噪计算量。该工作已被 ICML 2026 接收，为 dLLM 的高效推理扩展开辟了新路径。

💡 主要观点

- PRISM 通过层次化轨迹搜索（HTS）实现高效推理预算分配。 HTS 将推理过程分为早期随机探索、中期渐进裁剪和后期精修三个阶段，在去噪过程中动态识别并裁剪低质量轨迹，将计算资源集中到更有前景的候选上，使复杂度从 Best-of-N 的 O(NT) 降至 O(N + KT)。

局部重掩码分支（Partial Remasking）在保留高质量结构的同时探索局部变化。 PRISM 不会丢弃整条轨迹，而是保留高置信 token，仅对低置信位置重新 mask 并生成新分支，从而在避免过早收敛的同时，高效探索不同的推理细节和实现方式。

自验证反馈（SVF）复用模型自身作为验证器，无需额外模型。 SVF 通过构造 Yes/No 验证 prompt，利用模型自身的 logits 生成二元归一化分数用于轨迹排序和裁剪，其额外计算开销通常低于总 NFE 的 10%，提供了一种轻量级、易部署的验证方案。

💬 文章金句

- PRISM 的关键思路是把推理过程拆成三个阶段：早期随机探索、中期渐进裁剪和后期精修。

PRISM 不会粗暴地丢弃整条轨迹重新采样，而是保留高置信部分，只对低置信位置进行重新 mask，然后从这些局部变化中生成新的分支。
PRISM 将 verification 从「额外模型」变成了「同一模型的一次轻量自检」。
PRISM 不只是一个更省算力的 Best-of-N 替代方案，而是离散扩散语言模型迈向高效推理系统的一块关键拼图。

📊 文章信息

AI 初评：86

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2844

标签：离散扩散语言模型, Test-Time Scaling, PRISM, 推理优化, 自验证

阅读完整文章

ICML 2026｜拒绝大力出奇迹，PRISM 框架让 dLLM 也能高效 Test-Time Scaling

🤖 問 AI