什么是 PPO(Proximal Policy Optimization)?
PPO(Proximal Policy Optimization)是一种强化学习算法,它在更新策略时限制每次更新与旧策略之间的距离。
工作原理
PPO 因早期 RLHF 管线而在 LLM 对齐中广为人知。在完成 SFT 和奖励模型训练后,PPO 会优化语言模型,使其生成在奖励模型下得分更高的回答,同时约束更新幅度以避免策略不稳定。它功能强大但运维复杂:团队需要管理 KL 惩罚、奖励黑客、rollout 生成、价值模型、采样设置和训练不稳定。许多较新的 DPO 风格方法,部分动机就是降低这种复杂度。
主要特点
- 一种策略梯度强化学习算法
- 使用裁剪或约束更新来提升训练稳定性
- 常与语言模型经典 RLHF 关联
- 通常需要奖励模型、价值函数、rollout 生成和 KL 控制
- 比直接偏好优化方法运行更复杂
常见用途
- 根据学习到的奖励模型优化聊天模型
- 在 SFT 和奖励模型训练后运行经典 RLHF
- 研究对齐中的策略优化行为
- 当存在在线奖励反馈时训练模型
- 比较基于 RL 的对齐与直接偏好方法
示例
loading...
Loading code...常见问题
为什么 RLHF 会使用 PPO?
它提供了一种实用方法,在限制破坏性策略更新的同时,根据学习到的奖励优化模型。
PPO 需要奖励模型吗?
在经典 RLHF 中通常需要。PPO 往往根据训练好的奖励模型分数优化回答。
为什么 PPO 在 LLM 对齐中复杂?
它需要 rollout、奖励建模、价值估计、KL 控制和精细调参,以避免不稳定或奖励黑客。
PPO 和 DPO 有什么不同?
PPO 是基于奖励信号的强化学习;DPO 直接优化偏好样本对,不需要单独奖励模型 RL 循环。