什么是 GRPO(Group Relative Policy Optimization)?

GRPO(Group Relative Policy Optimization)是一种语言模型强化学习优化方法,它使用一组采样回答内部的相对奖励,而不是单独价值模型。

工作原理

GRPO 因推理模型训练讨论而受到关注,因为它简化了 LLM 中 PPO 风格 RL 的部分环节。GRPO 不训练单独 critic 或价值模型,而是为同一提示词采样多个回答,并在组内归一化奖励。这让优化依赖候选回答之间的相对表现。该方法适合有可验证或规则奖励的任务,但仍需要谨慎设计奖励、控制采样、管理 KL,并评估过度优化问题。

主要特点

  • 使用同一提示词的一组回答计算相对优势
  • 常见形式中不需要单独价值模型
  • 仍属于强化学习风格的策略优化
  • 常用于讨论带可验证奖励的推理任务
  • 需要谨慎奖励塑形,并监控过度优化

常见用途

  1. 使用规则答案奖励训练推理模型
  2. 对同一提示词的多个采样回答进行优化
  3. 通过避免价值模型降低 PPO 管线复杂度
  4. 为数学或代码任务实验 RL 风格对齐
  5. 比较直接偏好方法与组相对 RL

示例

loading...
Loading code...

常见问题

GRPO 和 PPO 有什么区别?

GRPO 通常使用组内相对奖励,并避免单独价值模型;PPO 往往使用 critic 或价值函数。

GRPO 需要偏好数据吗?

不一定。它可以使用规则或可验证奖励,当然偏好信号也可用于奖励设计。

为什么 GRPO 与推理模型有关?

推理任务常有可验证结果,使分组采样和相对奖励信号更实用。

GRPO 会被过度优化吗?

会。如果奖励不完整或可被利用,模型可能学到得分高但无法通过更广泛质量检查的行为。

相关工具

相关术语

相关文章