ICLR 2026 | 大模型当裁判也「翻车」？北大清华联合多校提出 TrustJudge，让 LLM 评估更值得信赖

📌 一句话摘要

北大清华等高校提出 TrustJudge 框架，通过利用 LLM 内部概率分布和似然感知聚合，显著降低了「大模型作为裁判」时的评分不一致性和传递性矛盾。

📝 详细摘要

本文介绍了由北京大学、清华大学等机构联合提出的 TrustJudge 评估框架，旨在解决大模型作为裁判（LLM-as-a-Judge）时存在的评分与比较不一致、成对传递性矛盾等问题。研究指出，离散评分会导致信息丢失，而模糊平局则破坏了传递性。TrustJudge 引入了分布敏感评分（利用 softmax 归一化概率分布）和似然感知聚合（基于困惑度或双向概率打破平局）两大核心策略。实验证明，该框架在 Llama、GPT、Qwen 等多种架构上均能显著提升评估的一致性和准确率，且能作为更可靠的奖励信号应用于强化学习（如 GRPO）中，全面提升模型性能。

💡 主要观点

- 离散评分导致信息丢失是 LLM 评估不一致的根源。 传统的 5 分制将连续的质量判断压缩为整数，导致质量相近的回复在评分时无差异，但在成对比较时却产生矛盾。

TrustJudge 通过分布敏感评分保留了模型内部的细微差异。 将评分粒度提升至 100 分，并利用所有候选分数的概率分布计算加权期望，从而捕捉到离散评分无法体现的性能波动。

似然感知聚合有效解决了成对比较中的传递性问题。 针对模型难以抉择的平局情况，通过计算困惑度（PPL）或双向概率聚合来打破僵局，降低了判断的不确定性。

强化学习中的评估一致性直接影响模型训练效果。 将 TrustJudge 作为 GRPO 的奖励信号，由于其提供的噪声更小、信号更准，能全面提升模型在摘要、数学和指令遵循等任务上的表现。

💬 文章金句

- 与其让模型吐一个离散分数了事，不如把它内部的完整概率分布也用上。

离散评分丢信息：5 分制打分，本质上是把模型心里的连续判断硬塞进几个整数格子里。
评估越一致，奖励信号噪声越小，模型学得越准。
专门练过推理能力的模型，做评估时反而更容易自相矛盾。

📊 文章信息

AI 评分：91

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3234

标签： LLM-as-a-Judge, TrustJudge, 模型评估, 强化学习, GRPO

阅读完整文章

ICLR 2026 | 大模型当裁判也「翻车」？北大清华联合多校提出 TrustJudge，让 LLM 评估更值得信赖

🤖 問 AI