什么是 奖励模型(Reward Model)?
奖励模型(Reward Model)是一种根据偏好数据或人工反馈训练出来、用于为候选回答分配分数的模型。
工作原理
奖励模型近似人类或策略偏好,使优化方法不必让人类评审每一次生成就能改善语言模型。在经典 RLHF 中,标注者比较回答,奖励模型学习这些偏好,随后强化学习用奖励信号优化策略模型。奖励模型强大但脆弱:它可能有偏、被过度优化、校准不佳,或被一些得分高但并不真正帮助用户的回答利用。
主要特点
- 根据偏好数据学习为候选回答打分
- 常用于 RLHF 管线,也可用于部分评估流程
- 可编码有用性、安全性、事实性、风格或任务特定标准
- 容易受到奖励黑客和分布漂移影响
- 需要结合人工判断做校准、验证和监控
常见用途
- 在 RLHF 训练中提供奖励信号
- 排序多个候选模型回答
- 在数据集构建时过滤低质量生成
- 根据偏好准则衡量对齐回退
- 当人工评审成本高时辅助模型选择
示例
loading...
Loading code...常见问题
奖励模型和 LLM 评审是一回事吗?
不完全一样。奖励模型通常专门训练用于偏好打分,而 LLM 评审可能只是通过提示词评估输出。
为什么奖励模型有风险?
模型可能学到捷径或偏见,策略优化也可能利用这些弱点,而不是真正提升有用性。
DPO 需要奖励模型吗?
DPO 不训练单独奖励模型,而是直接在偏好样本对上优化。
应该如何评估奖励模型?
应将其排序与留出人工偏好比较,检查校准情况,并测试奖励黑客和领域漂移。