北大清华等高校提出 TrustJudge 框架,通过利用 LLM 内部概率分布和似然感知聚合,显著降低了「大模型作为裁判」时的评分不一致性和传递性矛盾。
📝 详细摘要
本文介绍了由北京大学、清华大学等机构联合提出的 TrustJudge 评估框架,旨在解决大模型作为裁判(LLM-as-a-Judge)时存在的评分与比较不一致、成对传递性矛盾等问题。研究指出,离散评分会导致信息丢失,而模糊平局则破坏了传递性。TrustJudge 引入了分布敏感评分(利用 softmax 归一化概率分布)和似然感知聚合(基于困惑度或双向概率打破平局)两大核心策略。实验证明,该框架在 Llama、GPT、Qwen 等多种架构上均能显著提升评估的一致性和准确率,且能作为更可靠的奖励信号应用于强化学习(如 GRPO)中,全面提升模型性能。
💡 主要观点
- 离散评分导致信息丢失是 LLM 评估不一致的根源。 传统的 5 分制将连续的质量判断压缩为整数,导致质量相近的回复在评分时无差异,但在成对比较时却产生矛盾。
💬 文章金句
- 与其让模型吐一个离散分数了事,不如把它内部的完整概率分布也用上。
- 离散评分丢信息:5 分制打分,本质上是把模型心里的连续判断硬塞进几个整数格子里。
- 评估越一致,奖励信号噪声越小,模型学得越准。
- 专门练过推理能力的模型,做评估时反而更容易自相矛盾。
📊 文章信息
AI 评分:91
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3234
标签: LLM-as-a-Judge, TrustJudge, 模型评估, 强化学习, GRPO