什么是 黄金数据集(Golden Dataset)?
黄金数据集(Golden Dataset)是一组经过策划的可信样本,用作评估模型、提示词、检索或产品行为的稳定参考。
工作原理
黄金数据集是提示工程和 LLM 产品开发中的评估骨架。它应包含代表性任务、边界情况、安全用例、结构化输出样本和已知回归。不同于原始日志,黄金样本经过审查、标注和维护。目标不是覆盖一切,而是在提示词、模型、检索设置或工具变化时提供稳定信号。好的黄金数据集会随生产反馈演进,同时防止泄漏进训练数据。
主要特点
- 包含经过策划、审查和值得信任的评估用例
- 覆盖代表性任务、边界情况、回归和安全场景
- 可包含参考答案、评分准则、标签、期望 schema 或来源证据
- 应版本化,并与训练数据隔离
- 为提示词和模型变更提供稳定基线
常见用途
- 部署前测试提示词变更
- 在产品特定任务上比较模型版本
- 发现结构化输出或 RAG 引用回归
- 持续衡量安全和拒答行为
- 为 LLM 应用发布构建 CI 关卡
示例
loading...
Loading code...常见问题
黄金数据集和训练数据一样吗?
不一样。它用于评估,并应防止泄漏到训练数据中。
黄金数据集应包含什么?
应包含常见任务、困难边界情况、安全用例、历史事故、结构化输出用例和基于来源的问题。
黄金数据集应该多大?
足以捕捉重要回归即可。质量、代表性和维护质量比单纯规模更重要。
黄金数据集应该多久更新?
应随生产反馈演进,但变更需要审查和版本化,以保持评估可比较。