← 回總覽

ICML 2026|拒绝大力出奇迹,PRISM 框架让 dLLM 也能高效 Test-Time Scaling

📅 2026-05-11 12:09 机器之心 人工智能 2 分鐘 1574 字 評分: 86
离散扩散语言模型 Test-Time Scaling PRISM 推理优化 自验证
📌 一句话摘要 PRISM 框架为离散扩散语言模型(dLLM)设计了高效的 Test-Time Scaling 方案,通过层次化搜索、局部重掩码和自验证反馈,在数学推理和代码生成任务上以显著低于 Best-of-N 的计算成本实现了性能提升。 📝 详细摘要 本文介绍了由 Jinbin Bai 等研究者提出的 PRISM 框架,旨在解决离散扩散语言模型(dLLM)在 Test-Time Scaling 中的效率问题。与自回归模型不同,dLLM 通过并行去噪生成,传统 Best-of-N 方法会浪费大量计算在低质量轨迹上。PRISM 的核心创新包括:层次化轨迹搜索(HTS),在早期保持多样性、

📌 一句话摘要

PRISM 框架为离散扩散语言模型(dLLM)设计了高效的 Test-Time Scaling 方案,通过层次化搜索、局部重掩码和自验证反馈,在数学推理和代码生成任务上以显著低于 Best-of-N 的计算成本实现了性能提升。

📝 详细摘要

本文介绍了由 Jinbin Bai 等研究者提出的 PRISM 框架,旨在解决离散扩散语言模型(dLLM)在 Test-Time Scaling 中的效率问题。与自回归模型不同,dLLM 通过并行去噪生成,传统 Best-of-N 方法会浪费大量计算在低质量轨迹上。PRISM 的核心创新包括:层次化轨迹搜索(HTS),在早期保持多样性、中期裁剪低质量轨迹、后期精修;局部重掩码分支,保留高置信 token 并仅对低置信区域重新探索;以及自验证反馈(SVF),复用模型自身作为轻量级验证器。实验表明,在 LLaDA-8B-Instruct 等模型上,PRISM 在 GSM8K、MATH-500、HumanEval 和 MBPP 等基准上实现了显著性能提升,同时相比 Best-of-N 节省了数倍的去噪计算量。该工作已被 ICML 2026 接收,为 dLLM 的高效推理扩展开辟了新路径。

💡 主要观点

- PRISM 通过层次化轨迹搜索(HTS)实现高效推理预算分配。 HTS 将推理过程分为早期随机探索、中期渐进裁剪和后期精修三个阶段,在去噪过程中动态识别并裁剪低质量轨迹,将计算资源集中到更有前景的候选上,使复杂度从 Best-of-N 的 O(NT) 降至 O(N + KT)。

局部重掩码分支(Partial Remasking)在保留高质量结构的同时探索局部变化。 PRISM 不会丢弃整条轨迹,而是保留高置信 token,仅对低置信位置重新 mask 并生成新分支,从而在避免过早收敛的同时,高效探索不同的推理细节和实现方式。
自验证反馈(SVF)复用模型自身作为验证器,无需额外模型。 SVF 通过构造 Yes/No 验证 prompt,利用模型自身的 logits 生成二元归一化分数用于轨迹排序和裁剪,其额外计算开销通常低于总 NFE 的 10%,提供了一种轻量级、易部署的验证方案。

💬 文章金句

- PRISM 的关键思路是把推理过程拆成三个阶段:早期随机探索、中期渐进裁剪和后期精修。

  • PRISM 不会粗暴地丢弃整条轨迹重新采样,而是保留高置信部分,只对低置信位置进行重新 mask,然后从这些局部变化中生成新的分支。
  • PRISM 将 verification 从「额外模型」变成了「同一模型的一次轻量自检」。
  • PRISM 不只是一个更省算力的 Best-of-N 替代方案,而是离散扩散语言模型迈向高效推理系统的一块关键拼图。

📊 文章信息

AI 初评:86

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2844

标签: 离散扩散语言模型, Test-Time Scaling, PRISM, 推理优化, 自验证

阅读完整文章

查看原文 → 發佈: 2026-05-11 12:09:00 收錄: 2026-05-11 18:00:05

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。