什么是 GRPO(Group Relative Policy Optimization)?
GRPO(Group Relative Policy Optimization)是一种语言模型强化学习优化方法,它使用一组采样回答内部的相对奖励,而不是单独价值模型。
工作原理
GRPO 因推理模型训练讨论而受到关注,因为它简化了 LLM 中 PPO 风格 RL 的部分环节。GRPO 不训练单独 critic 或价值模型,而是为同一提示词采样多个回答,并在组内归一化奖励。这让优化依赖候选回答之间的相对表现。该方法适合有可验证或规则奖励的任务,但仍需要谨慎设计奖励、控制采样、管理 KL,并评估过度优化问题。
主要特点
- 使用同一提示词的一组回答计算相对优势
- 常见形式中不需要单独价值模型
- 仍属于强化学习风格的策略优化
- 常用于讨论带可验证奖励的推理任务
- 需要谨慎奖励塑形,并监控过度优化
常见用途
- 使用规则答案奖励训练推理模型
- 对同一提示词的多个采样回答进行优化
- 通过避免价值模型降低 PPO 管线复杂度
- 为数学或代码任务实验 RL 风格对齐
- 比较直接偏好方法与组相对 RL
示例
loading...
Loading code...常见问题
GRPO 和 PPO 有什么区别?
GRPO 通常使用组内相对奖励,并避免单独价值模型;PPO 往往使用 critic 或价值函数。
GRPO 需要偏好数据吗?
不一定。它可以使用规则或可验证奖励,当然偏好信号也可用于奖励设计。
为什么 GRPO 与推理模型有关?
推理任务常有可验证结果,使分组采样和相对奖励信号更实用。
GRPO 会被过度优化吗?
会。如果奖励不完整或可被利用,模型可能学到得分高但无法通过更广泛质量检查的行为。