原创 通义实验室 2026-03-17 17:51 浙江
入选 ICLR 2026 Oral!
同样的问题,不同的人,在不同的场景下,需要的答案可能截然不同。
统一的标准,遇上千人千面的偏好,传统奖励模型显然不够用了。如何让 AI 真正适配动态变化的个性化需求?通义实验室自然语言智能团队提出了 P-GenRM(Personalized Generative Reward Model)。这是 首个面向开放域场景的个性化生成式奖励模型,已入选 ICLR 2026 Oral。
过去的个性化方法通常会把用户偏好塞进模型里:比如用户特征、人口属性、历史对话、偏好标签等,让模型“猜你喜欢什么”。但它们常被两件事卡住: 痛点A:偏好建模太静态
很多方法把偏好简化成少数固定维度(比如“更简洁/更详细”),难以表达真实世界里细腻又会变的偏好:
* 同一个用户:工作时要结构化、闲聊时要松弛
* 不同类问题:问“旅游建议”和问“人生建议”,期待的标准完全不同 痛点B:新用户泛化差(冷启动)
当面对缺乏历史数据的新用户时,现有模型往往难以及时适配其偏好,陷入"冷启动"困境。
P-GenRM 的创新,在于不再直接输出一个黑箱分数,而是生成一条结构化的“评分链”。这就好比一 位会制定“个性化阅卷细则”的阅卷老师:
* 先写:这位同学在这个场景下更在意什么(persona + 偏好分析)
* 再写:评分 rubric(每条标准的权重)
* 最后:逐条对候选回答打分,汇总成总分
概念上,它的输出分为三个部分:
* Persona / 偏好画像:这位用户在当前场景更像谁?更在意什么?
* Rubric / 评分细则:例如“准确性 0.35、结构 0.25、语气亲和 0.20、创意 0.20”
* 逐条评分 + 总分:每条标准下给理由与分数(可解释)
这带来一个直接好处:偏好不再是模型里“黑箱的一团向量”,而是 可读、可调、可审计 的评分过程。
为了让模型真的学会这套“先立规矩再评分”的能力,我们用了三阶段训练框架:
通过有 监督微调(SFT)训练模型将用户的显式偏好(如直接说明“我喜欢简洁回答”)和隐式偏好(如对话历史中体现的风格倾向)转化为完整的评分链。这一阶段让模型学会从多样的偏好信号中总结出用户在特定情境下的偏好画像和相应的评分标准。
真实场景中,用户往往不会明确说出所有偏好。为此,我们引入强化学习进一步提升模型生成评分链的能力。当用户偏好信息不完整(例如缺少显式偏好信息)时,模型依然需要"脑补"出合理的评判标准。通过 RL 训练,P-GenRM 学会在信息不全的情况下也能进行稳健的偏好推理,补全评分链,保证评分过程的连续性和合理性。
我们引入一种"由易到难"的课程学习策略,让模型接触更大比例的具有挑战性的样本,逐步提高其对难负样本的判断准确度。
经过以上三步“特训”,P-GenRM 就炼成了一名既懂行又懂你的 AI 评分官。它能将繁杂多样的用户偏好转化为结构化的评分链来评估模型回答,实现对不同场景下用户需求的动态适配。
即便训练得再好,个性化推理仍面临天然噪声:历史对话可能误导判断、当前场景信号可能不足、新用户样本可能太少。
为此,P-GenRM 在推理阶段引入了 测试时用户扩展机制(Test-time User-based Scaling),通过“多想几遍”和“参考相似的人”两层策略来提升稳定性。
对同一个用户,模型会 多采样几次评分链再汇总投票——通过多次生成不同的评分细则,再综合决策,有效降低单次生成带来的偶然偏差。
我们离线将大量用户偏好聚类成若干 用户原型(User Prototypes)。推理时:先判断 当前用户最像哪个原型,再挑选 若干相似用户的偏好信号,额外生成 一组"参考评分",与个体层结果融合。
这样会带来两大收益:
* 降噪:相似人群提供的"偏好先验"不容易被单次历史误导。
* 冷启动更强:新用户也能通过"相似用户"获得可用的个性化标准。
我们在权威基准 PersonalRewardBench(由 Chatbot Arena-personalized 与 PRISM-personalized 组成)上进行了系统评估,核心成果可以概括为三点:
P-GenRM(8B)全面超越现有方法,平均带来约 2.3%的提升。
更关键的是,仅用 8B 模型就能超过此前最强的 70B 基线模型。这意味着:通过更聪明的架构设计,小模型也能在个性化任务上实现"越级挑战"。
在 引入 individual + prototype 的双层扩展后,准确率可 额外提升约 3%(例如 Ind-16 + Pro-8 的设置能把准确率进一步推高)。更关键的是,在更少扩展次数下,就能超过“只靠个体扩展、扩得更多”的效果。
这说明“参考相似用户”不单是堆算力,而是在引入有效的信息增量。
我们用 P-GenRM 训练 Policy 模型,验证其在下游任务中的实际价值:
* 8B policy +P-GenRM 在DPO/GRPO 等设置下,能取得统计显著的个性化对齐收益。
* 甚至在某些对比里,8B policy + P-GenRM 的效果可以超过 70B 模型。
这意味着:P-GenRM 不只是“评委”,还能当“好教练”。
此外,我们也补充了更多稳健性证据:
* 少量历史样本也可工作(少至几条历史互动也能保持稳定表现)
* 对小群体更公平:用 macro-accuracy 等指标评估时仍表现突出,避免只迎合主流偏好
* 推理效率:在对比中,P-GenRM 在更高准确率下仍保持较低延迟,并且扩展带来的额外耗时相对可控
真正的个性化,不是"换个语气""记住昵称"的表层定制,而是在开放式问题中,稳定给出"对这个人、在这个场景下更合适"的答案。
P-GenRM 的核心价值,是把个性化对齐做成了一套可解释、可泛化的流程:
* 先明确标准:从偏好信号中推断 persona,并生成带权重的评分 rubric
* 再依据标准逐条评判:输出可解释、可审计的评分过程,而不是黑箱打分
* 不确定就多做几次推理:在个体层进行多次采样与聚合,降低偶然偏差
* 新用户也能借鉴相似经验:在原型层引入相似用户偏好,增强冷启动泛化
这套机制让个性化技术更有机会落地到客服、教育、内容创作等真实场景中,系统不必“一次性猜对偏好”,而是用结构化评估链把不确定性拆解、吸收、压低。
更重要的是,P-GenRM 展示了 生成式奖励模型 在个性化对齐上的潜力:把多元偏好信号转化为结构化、可解释的评分链,并通过测试时用户扩展提升稳定性与泛化能力。这不仅带来了更准确的个性化奖励信号,也为构建真正“懂你、且能解释自己为何这么做”的 AI 系统迈出了一步。 💬 今日互动 **你觉得个性化 AI 最大的挑战是什么?是准确理解用户偏好,还是在不同场景间灵活切换?欢迎在评论区聊聊你的看法(随机掉落定制周边)** 推荐阅读 Fun-CineForge:首个影视级配音多模态大模型 