← 回總覽

ICLR 2026 | 大模型当裁判也「翻车」?北大清华联合多校提出 TrustJudge,让 LLM 评估更值得信赖

📅 2026-03-31 13:36 机器之心 人工智能 1 分鐘 1184 字 評分: 91
LLM-as-a-Judge TrustJudge 模型评估 强化学习 GRPO
📌 一句话摘要 北大清华等高校提出 TrustJudge 框架,通过利用 LLM 内部概率分布和似然感知聚合,显著降低了「大模型作为裁判」时的评分不一致性和传递性矛盾。 📝 详细摘要 本文介绍了由北京大学、清华大学等机构联合提出的 TrustJudge 评估框架,旨在解决大模型作为裁判(LLM-as-a-Judge)时存在的评分与比较不一致、成对传递性矛盾等问题。研究指出,离散评分会导致信息丢失,而模糊平局则破坏了传递性。TrustJudge 引入了分布敏感评分(利用 softmax 归一化概率分布)和似然感知聚合(基于困惑度或双向概率打破平局)两大核心策略。实验证明,该框架在 Llama

📌 一句话摘要

北大清华等高校提出 TrustJudge 框架,通过利用 LLM 内部概率分布和似然感知聚合,显著降低了「大模型作为裁判」时的评分不一致性和传递性矛盾。

📝 详细摘要

本文介绍了由北京大学、清华大学等机构联合提出的 TrustJudge 评估框架,旨在解决大模型作为裁判(LLM-as-a-Judge)时存在的评分与比较不一致、成对传递性矛盾等问题。研究指出,离散评分会导致信息丢失,而模糊平局则破坏了传递性。TrustJudge 引入了分布敏感评分(利用 softmax 归一化概率分布)和似然感知聚合(基于困惑度或双向概率打破平局)两大核心策略。实验证明,该框架在 Llama、GPT、Qwen 等多种架构上均能显著提升评估的一致性和准确率,且能作为更可靠的奖励信号应用于强化学习(如 GRPO)中,全面提升模型性能。

💡 主要观点

- 离散评分导致信息丢失是 LLM 评估不一致的根源。 传统的 5 分制将连续的质量判断压缩为整数,导致质量相近的回复在评分时无差异,但在成对比较时却产生矛盾。

TrustJudge 通过分布敏感评分保留了模型内部的细微差异。 将评分粒度提升至 100 分,并利用所有候选分数的概率分布计算加权期望,从而捕捉到离散评分无法体现的性能波动。
似然感知聚合有效解决了成对比较中的传递性问题。 针对模型难以抉择的平局情况,通过计算困惑度(PPL)或双向概率聚合来打破僵局,降低了判断的不确定性。
强化学习中的评估一致性直接影响模型训练效果。 将 TrustJudge 作为 GRPO 的奖励信号,由于其提供的噪声更小、信号更准,能全面提升模型在摘要、数学和指令遵循等任务上的表现。

💬 文章金句

- 与其让模型吐一个离散分数了事,不如把它内部的完整概率分布也用上。

  • 离散评分丢信息:5 分制打分,本质上是把模型心里的连续判断硬塞进几个整数格子里。
  • 评估越一致,奖励信号噪声越小,模型学得越准。
  • 专门练过推理能力的模型,做评估时反而更容易自相矛盾。

📊 文章信息

AI 评分:91

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3234

标签: LLM-as-a-Judge, TrustJudge, 模型评估, 强化学习, GRPO

阅读完整文章

查看原文 → 發佈: 2026-03-31 13:36:00 收錄: 2026-03-31 18:00:18

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。