SelectiveRM 提出基于最优传输的奖励模型训练框架,通过选择性分布对齐自动识别并排除噪声偏好,提升 RLHF 对齐质量与安全性。
📝 详细摘要
本文介绍了浙江大学、小红书、北京大学等机构联合提出的 SelectiveRM 方法,旨在解决 RLHF 中奖励模型训练时偏好数据普遍包含噪声的问题。传统方法假设所有观测偏好都准确,但实际中人工标注、众包反馈或 LLM-as-a-Judge 都可能引入噪声,导致模型拟合错误偏好。SelectiveRM 将训练重构为分布对齐问题,利用最优传输衡量经验联合分布与模型诱导联合分布之间的差异,并引入部分最优传输机制,允许模型自动排除与语义一致性冲突的高成本噪声样本。实验在 HelpSteer、UltraFeedback、PKU-SafeRLHF 等数据集上验证了其有效性,并在下游 RLHF 安全基准测试中展示了更优的鲁棒性。该方法为在噪声反馈下学习可靠奖励函数提供了一种更具原则性的训练范式。
💡 主要观点
- 偏好数据普遍包含噪声,是奖励建模的核心挑战。 人工标注疲劳、主观分歧、LLM 幻觉等因素导致观测偏好偏离真实偏好,部分数据集噪声比例接近 40%-50%,直接拟合会损害模型质量。
💬 文章金句
- 如果监督信号本身并不可靠,那么模型究竟应该学习什么?
- SelectiveRM 不再要求模型无条件拟合所有观测偏好,而是通过选择性分布对齐,自动识别并排除与语义一致性相冲突的 Noisy Preference。
- 它不再要求模型「解释所有数据」,而是允许模型只向可信监督对齐。
- 当监督信号本身不可靠时,学习目标不应只是「更好地拟合数据」,而应当进一步回答「哪些数据值得被学习」。
📊 文章信息
AI 初评:86
来源:AI科技评论
作者:AI科技评论
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3814
标签: RLHF, 奖励模型, 最优传输, 噪声偏好, 模型对齐