从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨 ICML 2026

📌 一句话摘要

SelectiveRM 提出基于最优传输的奖励模型训练框架，通过选择性分布对齐自动识别并排除噪声偏好，提升 RLHF 对齐质量与安全性。

📝 详细摘要

本文介绍了浙江大学、小红书、北京大学等机构联合提出的 SelectiveRM 方法，旨在解决 RLHF 中奖励模型训练时偏好数据普遍包含噪声的问题。传统方法假设所有观测偏好都准确，但实际中人工标注、众包反馈或 LLM-as-a-Judge 都可能引入噪声，导致模型拟合错误偏好。SelectiveRM 将训练重构为分布对齐问题，利用最优传输衡量经验联合分布与模型诱导联合分布之间的差异，并引入部分最优传输机制，允许模型自动排除与语义一致性冲突的高成本噪声样本。实验在 HelpSteer、UltraFeedback、PKU-SafeRLHF 等数据集上验证了其有效性，并在下游 RLHF 安全基准测试中展示了更优的鲁棒性。该方法为在噪声反馈下学习可靠奖励函数提供了一种更具原则性的训练范式。

💡 主要观点

- 偏好数据普遍包含噪声，是奖励建模的核心挑战。 人工标注疲劳、主观分歧、LLM 幻觉等因素导致观测偏好偏离真实偏好，部分数据集噪声比例接近 40%-50%，直接拟合会损害模型质量。

SelectiveRM 将奖励模型训练重构为分布对齐问题。 通过最优传输衡量经验联合分布与模型诱导联合分布的一致性，而非逐点拟合标签，从而学习语义与偏好之间的全局结构。

部分最优传输机制允许模型自动排除噪声样本。 引入 Mass Relaxation，只匹配低成本、高一致性的可靠样本，忽略与语义一致性冲突的高成本噪声数据，避免模型被迫拟合错误偏好。

更干净的奖励模型直接提升下游 RLHF 的安全性。 在 HarmBench、FFT、DAN 等安全基准上，SelectiveRM 训练的奖励模型引导的策略模型表现出更强的鲁棒性，有效抑制 Reward Hacking。

💬 文章金句

- 如果监督信号本身并不可靠，那么模型究竟应该学习什么？

SelectiveRM 不再要求模型无条件拟合所有观测偏好，而是通过选择性分布对齐，自动识别并排除与语义一致性相冲突的 Noisy Preference。
它不再要求模型「解释所有数据」，而是允许模型只向可信监督对齐。
当监督信号本身不可靠时，学习目标不应只是「更好地拟合数据」，而应当进一步回答「哪些数据值得被学习」。

📊 文章信息

AI 初评：86

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3814

标签： RLHF, 奖励模型, 最优传输, 噪声偏好, 模型对齐

阅读完整文章

从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨 ICML 2026

🤖 問 AI