什么是 数据集策划(Dataset Curation)?

数据集策划(Dataset Curation)是选择、清洗、组织、标注、去重和验证数据,使其适合模型训练或评估的过程。

工作原理

数据集策划往往是微调中杠杆最高的工作。模型从数据集中学到的不只是期望行为,也会学到格式错误、过期事实、策略矛盾、偏见和捷径。好的策划会定义目标行为、收集代表性样本、移除重复和泄漏、规范格式、检查许可证和隐私,并创建反映真实使用的评估切分。它是持续过程,而不是一次性预处理步骤。

主要特点

  • 根据目标行为、覆盖范围、质量和风险选择数据
  • 移除重复、泄漏、过期记录、不安全内容和格式错误
  • 需要清晰 schema、标注指南和验证检查
  • 在训练前控制隐私、许可证和合规风险
  • 连接训练数据、评估集和生产反馈

常见用途

  1. 为企业助手准备 SFT 样本
  2. 构建用于对齐的 chosen-rejected 偏好对
  3. 移除近重复和基准泄漏
  4. 为领域微调创建验证集
  5. 训练前审计数据许可证和敏感信息

示例

loading...
Loading code...

常见问题

为什么数据集策划对微调很重要?

微调会放大数据中的模式。策划不好会教出错误格式、过期事实、不安全行为或偏见回答。

数据集策划只是清洗吗?

不是。它包括数据选择、schema 设计、标注、去重、隐私审查、许可证、切分和评估设计。

什么是数据泄漏?

数据泄漏指评估样本或基准答案出现在训练数据中,使结果看起来比真实情况更好。

数据集应该多久策划一次?

应持续进行。生产反馈、策略变化、新领域和发现的错误都应回流到策划流程。

相关工具

相关术语