Title: 北航等:一个 LLM 答得对,一群 LLM 却能评审出最优解~ | BestBlogs.dev
URL Source: https://www.bestblogs.dev/article/171e6b16
Published Time: 2026-03-21 05:52:00
Markdown Content: 随着Llama、Qwen、DeepSeek等开源大模型的爆发式增长,Hugging Face上已有超过18万个模型可供选择。但一个残酷的现实是:没有任何一个模型能在所有任务上都表现最好。有的擅长数学推理,有的擅长代码生成,有的则在开放域问答中表现优异。
面对这种"各有所长"的局面,一个自然的想法是:能否让多个模型"投票"或"协作",选出最好的回答?这就是LLM Ensemble(大模型集成)研究的核心问题。
现有的集成方法主要分为两类,但都有明显缺陷:
* 基于微调的生成方法(如LLM-Blender):需要大量标注数据和额外的训练,难以泛化到新任务
* 基于相似性的选择方法(如Smoothie、Agent-Forest):使用BLEU等粗粒度相似度指标,无法捕捉回答质量的细微差别,且容易受"幻觉"影响
针对这些痛点,北航等提出了LLM-PeerReview——一个完全无监督、受学术同行评审机制启发的集成框架。
!Image 1论文题目: Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process论文链接: https://arxiv.org/abs/2512.23213GitHub: https://github.com/zeyuji/LLM-PeerReview项目主页:** https://zeyuji.github.io/LLM-PeerReview/
方法LLM-PeerReview简介
* 1.2.1)方法简介——首先,最重要的,请观察下面所列出的LLM-PeerReview示意图(图1)以及在图片下方的标题和说明部分。
!Image 2 图: 所提出的框架LLM-PeerReview。该框架包含三个顺次运行的模块,即Scoring (评分)、Reasoning (推理)、Selection (选择):1)评分 (Scoring)——每个模型都可以是审稿员:针对同一prompt/query的多个候选responses,我们复用模型集合中的LLM作为评估者(LLM-as-a-Judge),对每个回答打分(如:5.0表示 Strong Accept)。为了减少judge过程中的固有偏差,我们提出了关键的"翻转三元评分技术"(Flipped-triple scoring trick)——这是提升整个框架效能的基石。2)推理 (Reasoning)——汇聚多份审稿意见并给出最终分数:我们将多份评分进行聚合,衍生出两个版本。LLM-PeerReview:最直接的简单平均策略(Simple Averaging);LLM-PeerReview-W:引入权重感知,根据不同LLM的“评审水平”赋予不同的打分权重;3) 选择 (Selection)——在一个论文候选池中挑选出得分最高论文:对于每个prompt/query,我们只锁定得分最高的那个response作为最终集成结果。
* 1.2.2)更多方法细节
* 对于LLM-PeerReview中的评分 (Scoring)过程,我们首次提出了"翻转三元评分技术"(Flipped-triple scoring trick)。在传统的LLM-as-a-judge中,常常让模型一个个给回答打分(Point-wise Scoring)虽然简单,但模型往往会有“固定偏见”(尤其是使用中小规模的模型时)。为此,我们提出了一种全新的Flipped-triple scoring trick。!Image 3!Image 4
* 变体LLM-PeerReview-W。
* 1.2.3) 方法分析
* 有一句常常流传的话,并且据说是来自于爱因斯坦,“Everything should be made as simple as possible, but not simpler”。(万事万物都应尽可能简洁,但不能过度简化。)
* 那么:1)直觉先行:针对同一query/prompt,从多个回答中挑选“全场最佳”,引入学术同行评审的逻辑是非常合乎直觉且自然的;2)打破瓶颈与进一步提升:实验发现,如果只是简单地让LLM逐个打分(Point-wise),像7B这样的中小模型表现很差,使得LLM-PeerReview难以超越baselines。Everything should be made as simple as possible, but not simpler,当使用上所提出的Flipped-triple scoring trick后,所得到的LLM-PeerReview和LLM-PeerReview-W性能已经远超所有baselines;3)总而言之,我们认为嵌入了Flipped-triple scoring trick的同行评审框架LLM-PeerReview是一个超级simple and effective的多LLM协同/集成方法。
* 方法优势与特点:无监督(且无需微调),框架具有良好的可解释性,既可以应用于Exact-Match Generation任务(根据标准答案进行匹配,如Math),也可以应用于Open-Ended Generation任务(如Code Generation和Instruction-Following)。
1.3 其他分析
* 效率分析:对于Scoring过程,我们当然可以采用模型集合中所有LLMs来进行打分。为了提高效率,我们实际上可以减少评审员数量而直接线性地减少Scoring过程计算量。后续,我们也将考虑根据拓扑学而有选择性地来进行减少[11]。LLM-PeerReview相较于LLM Collaboration中经典的基于debate的方法[11]会具有更好的计算效率,因为打分仅需要一轮,而debated往往需要多轮。
* 其他理论分析:我们提供了一些相应的理论证明,以说明当提高评估员的数量或者是增加评估员的差异性时,可以提高最终的集成分数质量。这些理论证明可以指导对于评估员的选择。
1.4 其他备注
* LLM Ensemble与LLM Collaboration的联系。从广义上讲,LLM Ensemble可以看作是LLM Collaboration这个topic的一个子集。另外,LLM Ensemble与其他Collaboration类的方法相比,更强调于所考虑的多个模型都是着眼于端对端地处理query/prompt,而不是Collaboration中主要强调于各个模型进行大量的信息传递以在一个系统中完成协作与竞争等目的。
2 实验
!Image 7 图4: 核心实验结果。1) Single LLM:模型集合中的各个单一LLM;2)LLM Ensemble:LLM Ensemble baselines;3)Our variants (flipped-triple):单一的LLM作为评估员利用所提出的打分方法进行打分,并挑选出最高得分response;4)Our variants (single):单一的LLM作为评估员利用传统的单点打分方法进行打分,并挑选出最高得分response;
* 1)核心实验结果分析:
* 巨大性能提升。所提出的方法LLM-PeerReview/LLM-PeerReview-W明显超越了任何单一LLM的性能表现,也明显超越了所有LLM Ensemble baselines;在平均性能上,以6.9%和7.3%的优势超越了先进的“推理后集成“方法Smoothie-Global,以7.2%和7.6%的优势超越了经典的”推理时集成“方法GaC;
* 每个LLM在每个数据集上的表现都表现出明显的差异性。我们还在论文中提供了一些图表来分析这些LLMs的表现差异;
* 使用较少的评估员依然可以获得不错结果。当我们使用"单一的LLM作为评估者并挑选最优response"(即表格中的our variants (flipped-triple))时,其性能表现也相当不错。我们还在附录中提供了使用1个、2个和3个评估员的结果;
* 加权版LLM-PeerReview-W相较于基础LLM-PeerReview表现出了一些性能提升。我们考虑在后续工作中对变体方法中的图模型加入先验信息以进一步提高性能;
* Flipped-triple scoring trick是巨大功臣。因为our variants (flipped-triple)的性能与our variants (single)实现了大幅度的性能提升(4个单评审员的提升分别为:8.4%、7.2%、6.4%、7.1%)。在实验中还提供了更多直接的信息说明这一点。
!Image 8 图: LLM-PeerReview中使用不同数量/种类的评估员 vs. 其他LLM Ensemble baselines
* 2)其他实验结果分析:我们还在论文中提供了更多实验分析,如上图。
3 总结
LLM-PeerReview的启示在于:与其设计复杂的融合机制,不如模仿人类已经验证有效的决策流程——同行评审。
其核心优势包括:
* ✅完全无监督:无需标注数据或微调,开箱即用
* ✅可解释性强:评分过程透明,可通过转移矩阵理解各模型的评判倾向
* ✅性能卓越:在知识问答、数学推理、指令遵循等多元任务上全面领先
* ✅灵活高效:支持评委数量裁剪,适应不同算力预算 局限与未来方向: 当前方法主要针对"选择最佳单一回答"的场景,未来可探索如何结合多个回答生成新的综合回答(Generation-based Ensemble),或引入人工反馈构建人机协作的评审机制。