Question 1

LLM-as-Judge 与人工评估相比准确度如何？

Accepted Answer

研究表明，强大的评委模型（如 GPT-4）在许多任务上与人类评估者的一致性达到 80-85%，与人类标注者之间的一致性相当。但准确度因任务类型而异——LLM 评委在事实性和连贯性评估上表现更好，在主观或文化细微差别的评估上表现较弱。

Question 2

LLM-as-Judge 的主要偏差有哪些？

Accepted Answer

主要偏差包括位置偏差（在成对比较中倾向选择第一个或最后一个选项）、冗长偏差（不论质量如何偏好更长更详细的回复）、自我增强偏差（偏好同一模型家族的输出）和风格偏差（偏好某些写作风格）。可通过位置交换、长度归一化和使用多样化的评委面板来缓解。

Question 3

可以用小模型作为评委吗？

Accepted Answer

可以，但需要权衡。较小的模型通常与人类判断的相关性较低，且更容易受到偏差影响。常见做法是使用人类偏好数据专门微调小模型来进行评判，这可以在较低成本下达到有竞争力的性能。Prometheus 和 JudgeLM 等模型就是专门为此角色构建的。

Question 4

单点评分和成对比较有什么区别？

Accepted Answer

单点评分是对单个回复按绝对量表打分（如有用性 1-5 分），而成对比较是呈现两个回复并判断哪个更好。成对比较通常更可靠，因为它减少了校准问题，但比较多个模型时需要更多 API 调用。单点评分在单独的质量门控中更快。

Question 5

LLM-as-Judge 在 RLHF 中如何使用？

Accepted Answer

在 RLHF（基于人类反馈的强化学习）中，LLM-as-Judge 可以大规模生成合成偏好数据来训练奖励模型。团队使用评委模型对输出进行排序，为奖励模型创建训练信号，而非完全依赖昂贵的人工标注。这有时被称为 RLAIF（基于 AI 反馈的强化学习），大幅降低了对齐训练的成本。

全称	大语言模型作为评委（LLM-as-Judge）
创建时间	该概念在 2023 年随着加州大学伯克利分校的论文《Judging LLM-as-a-Judge》而广泛流行
规范文档	官方规范

什么是 LLM-as-Judge？

快速了解