什么是 提示词回归测试(Prompt Regression Test)?
提示词回归测试(Prompt Regression Test)是一种评估,用于检查提示词或相关 LLM 应用变更是否破坏了先前预期行为。
工作原理
提示词回归测试保护 LLM 应用免受意外行为变化影响。测试可以断言精确结构化输出、基于评分准则的质量、拒答行为、引用存在、工具使用约束,或延迟和 token 预算。由于 LLM 输出可能具有概率性,测试通常结合确定性检查、语义评审模型和高风险场景的人工复核。最好的回归套件与真实事故、生产反馈和黄金数据集绑定,而不只是合成顺利路径。
主要特点
- 在提示词、模型、检索或工具更新后发现行为变化
- 可测试精确 schema、语义质量、安全、引用和成本限制
- 常结合确定性断言、LLM-as-Judge 或人工审查
- 基于黄金数据集和生产失败案例时效果最好
- 防止修复某个提示问题时静默破坏其他工作流
常见用途
- 检查提示词修改后 JSON 输出仍符合 schema
- 测试不安全请求的拒答行为
- 确保 RAG 答案仍包含引用
- 用当前提示词期望比较新模型
- 当已知事故复现时阻止发布
示例
loading...
Loading code...常见问题
提示词回归测试能发现什么?
它发现提示词、模型、检索、工具或配置变更后,过去可工作的行为是否被破坏。
LLM 测试可以确定性吗?
部分可以,尤其是 schema 和策略检查。开放质量测试通常需要评分准则、多次运行或评审模型。
回归测试应该使用生产样本吗?
经过隐私审查后应该使用。真实失败和用户用例比只有合成样本更有价值。
多少提示词回归测试才够?
应覆盖关键工作流、已知事故、安全边界、结构化输出和高价值用户意图。