什么是 ORPO(Odds Ratio Preference Optimization)?

ORPO(Odds Ratio Preference Optimization)是一种偏好优化方法,它把对 chosen 回答的监督学习与针对 rejected 回答的赔率惩罚结合起来。

工作原理

ORPO 属于一类试图比 RLHF 更简化偏好调优的对齐方法。它使用 chosen-rejected 回答对,并修改训练目标,使模型既从偏好回答学习,又降低被拒绝回答的概率。它的吸引力在于避免单独奖励模型和 RL 循环。与其他直接偏好方法一样,ORPO 高度依赖偏好数据质量,并应评估过拟合、长度偏差、拒答行为和领域漂移。

主要特点

  • 使用包含 chosen 和 rejected 回答的偏好样本对
  • 结合类似 SFT 的学习和赔率偏好项
  • 常见设置下不需要单独奖励模型
  • 运维复杂度低于使用 PPO 的经典 RLHF
  • 对偏好数据质量和回答分布敏感

常见用途

  1. 在 SFT 后不运行 PPO 也能对齐模型
  2. 使用 chosen-rejected 偏好样本对训练
  3. 改善助手风格和拒答行为
  4. 比较 DPO、ORPO、KTO 等直接偏好方法
  5. 降低偏好调优中的基础设施复杂度

示例

loading...
Loading code...

常见问题

ORPO 和 RLHF 有什么区别?

ORPO 直接优化偏好样本对,避免经典 RLHF 中单独奖励模型加 PPO 的循环。

ORPO 和 DPO 一样吗?

不一样。二者都直接使用偏好数据,但训练目标和公式不同。

ORPO 需要什么数据?

它通常需要由 prompt、chosen 回答和 rejected 回答组成的样本,且这些样本要反映目标偏好策略。

ORPO 的主要风险是什么?

噪声偏好对、长度偏差、过拟合和评估不匹配都可能造成误导性改进。

相关工具

相关术语

相关文章