什么是 PPO(Proximal Policy Optimization)?

PPO(Proximal Policy Optimization)是一种强化学习算法,它在更新策略时限制每次更新与旧策略之间的距离。

工作原理

PPO 因早期 RLHF 管线而在 LLM 对齐中广为人知。在完成 SFT 和奖励模型训练后,PPO 会优化语言模型,使其生成在奖励模型下得分更高的回答,同时约束更新幅度以避免策略不稳定。它功能强大但运维复杂:团队需要管理 KL 惩罚、奖励黑客、rollout 生成、价值模型、采样设置和训练不稳定。许多较新的 DPO 风格方法,部分动机就是降低这种复杂度。

主要特点

  • 一种策略梯度强化学习算法
  • 使用裁剪或约束更新来提升训练稳定性
  • 常与语言模型经典 RLHF 关联
  • 通常需要奖励模型、价值函数、rollout 生成和 KL 控制
  • 比直接偏好优化方法运行更复杂

常见用途

  1. 根据学习到的奖励模型优化聊天模型
  2. 在 SFT 和奖励模型训练后运行经典 RLHF
  3. 研究对齐中的策略优化行为
  4. 当存在在线奖励反馈时训练模型
  5. 比较基于 RL 的对齐与直接偏好方法

示例

loading...
Loading code...

常见问题

为什么 RLHF 会使用 PPO?

它提供了一种实用方法,在限制破坏性策略更新的同时,根据学习到的奖励优化模型。

PPO 需要奖励模型吗?

在经典 RLHF 中通常需要。PPO 往往根据训练好的奖励模型分数优化回答。

为什么 PPO 在 LLM 对齐中复杂?

它需要 rollout、奖励建模、价值估计、KL 控制和精细调参,以避免不稳定或奖励黑客。

PPO 和 DPO 有什么不同?

PPO 是基于奖励信号的强化学习;DPO 直接优化偏好样本对,不需要单独奖励模型 RL 循环。

相关工具

相关术语

相关文章