什么是 ORPO(Odds Ratio Preference Optimization)?
ORPO(Odds Ratio Preference Optimization)是一种偏好优化方法,它把对 chosen 回答的监督学习与针对 rejected 回答的赔率惩罚结合起来。
工作原理
ORPO 属于一类试图比 RLHF 更简化偏好调优的对齐方法。它使用 chosen-rejected 回答对,并修改训练目标,使模型既从偏好回答学习,又降低被拒绝回答的概率。它的吸引力在于避免单独奖励模型和 RL 循环。与其他直接偏好方法一样,ORPO 高度依赖偏好数据质量,并应评估过拟合、长度偏差、拒答行为和领域漂移。
主要特点
- 使用包含 chosen 和 rejected 回答的偏好样本对
- 结合类似 SFT 的学习和赔率偏好项
- 常见设置下不需要单独奖励模型
- 运维复杂度低于使用 PPO 的经典 RLHF
- 对偏好数据质量和回答分布敏感
常见用途
- 在 SFT 后不运行 PPO 也能对齐模型
- 使用 chosen-rejected 偏好样本对训练
- 改善助手风格和拒答行为
- 比较 DPO、ORPO、KTO 等直接偏好方法
- 降低偏好调优中的基础设施复杂度
示例
loading...
Loading code...常见问题
ORPO 和 RLHF 有什么区别?
ORPO 直接优化偏好样本对,避免经典 RLHF 中单独奖励模型加 PPO 的循环。
ORPO 和 DPO 一样吗?
不一样。二者都直接使用偏好数据,但训练目标和公式不同。
ORPO 需要什么数据?
它通常需要由 prompt、chosen 回答和 rejected 回答组成的样本,且这些样本要反映目标偏好策略。
ORPO 的主要风险是什么?
噪声偏好对、长度偏差、过拟合和评估不匹配都可能造成误导性改进。