什么是 偏好数据(Preference Data)?
偏好数据(Preference Data)是记录同一提示词或任务下,哪些模型回答被偏好、排序、拒绝或评分的训练数据。
工作原理
偏好数据告诉对齐方法:当多个答案都可能出现时,什么样的行为更好。它可以来自人工标注者、专家评审、用户反馈、AI 辅助标注或合成比较。不同于提供目标答案的 SFT 数据,偏好数据比较多个候选回答,可以捕捉有用性、事实性、安全性、语气、完整性和拒答行为等质量。其可靠性取决于清晰标注指南、代表性提示词、标注者一致性和偏差控制。
主要特点
- 比较候选回答,而不是只提供单一目标答案
- 可表示为 chosen-rejected 对、排序、评分或点评
- 被 RLHF、奖励建模、DPO、ORPO、KTO 等方法使用
- 对标注者偏差、提示词分布和指南歧义敏感
- 需要质量控制,因为噪声偏好会训练出错误行为
常见用途
- 为 RLHF 训练奖励模型
- 为 DPO 创建 chosen-rejected 样本对
- 捕捉领域助手中的专家偏好
- 用人工反馈过滤或加权模型回答
- 评估模型风格是否符合产品预期
示例
loading...
Loading code...常见问题
偏好数据和 SFT 数据有什么不同?
SFT 数据提供目标回答;偏好数据比较多个回答,并根据指南指出哪个更好。
偏好数据可以是合成的吗?
可以,但合成偏好必须谨慎验证,因为它可能反映评审模型自身的偏差和盲点。
高质量偏好数据有什么特点?
清晰评分准则、代表性提示词、专家复核、标注一致性检查和强过滤都很重要。
为什么偏好数据对对齐重要?
它编码了难以用唯一正确答案表达的取舍,例如有用性、安全性、语气和事实支撑。