什么是 奖励模型(Reward Model)?

奖励模型(Reward Model)是一种根据偏好数据或人工反馈训练出来、用于为候选回答分配分数的模型。

工作原理

奖励模型近似人类或策略偏好,使优化方法不必让人类评审每一次生成就能改善语言模型。在经典 RLHF 中,标注者比较回答,奖励模型学习这些偏好,随后强化学习用奖励信号优化策略模型。奖励模型强大但脆弱:它可能有偏、被过度优化、校准不佳,或被一些得分高但并不真正帮助用户的回答利用。

主要特点

  • 根据偏好数据学习为候选回答打分
  • 常用于 RLHF 管线,也可用于部分评估流程
  • 可编码有用性、安全性、事实性、风格或任务特定标准
  • 容易受到奖励黑客和分布漂移影响
  • 需要结合人工判断做校准、验证和监控

常见用途

  1. 在 RLHF 训练中提供奖励信号
  2. 排序多个候选模型回答
  3. 在数据集构建时过滤低质量生成
  4. 根据偏好准则衡量对齐回退
  5. 当人工评审成本高时辅助模型选择

示例

loading...
Loading code...

常见问题

奖励模型和 LLM 评审是一回事吗?

不完全一样。奖励模型通常专门训练用于偏好打分,而 LLM 评审可能只是通过提示词评估输出。

为什么奖励模型有风险?

模型可能学到捷径或偏见,策略优化也可能利用这些弱点,而不是真正提升有用性。

DPO 需要奖励模型吗?

DPO 不训练单独奖励模型,而是直接在偏好样本对上优化。

应该如何评估奖励模型?

应将其排序与留出人工偏好比较,检查校准情况,并测试奖励黑客和领域漂移。

相关工具

相关术语

相关文章