什么是 HyDE(Hypothetical Document Embeddings)?
HyDE(Hypothetical Document Embeddings)是一种检索技术,它让语言模型生成一个假设文档或答案,嵌入这段生成文本,并用它检索真实文档。
工作原理
HyDE 是 Hypothetical Document Embeddings 的缩写。系统不是只嵌入用户短小或模糊的查询,而是先生成一段类似答案的假设文档,再嵌入这段更丰富的文本用于检索。当查询缺少语料中的专业词汇时,这可以改善稠密检索。生成文档不能被当作证据,它只是搜索辅助。生产系统必须避免让假设文本中的幻觉细节在没有真实来源支持时进入最终答案。
主要特点
- 使用 LLM 生成的假设片段作为中间检索表示
- 可改善短查询、模糊查询或词汇不足查询的稠密检索
- 假设文本应只引导搜索,不能作为事实证据
- 会在检索前增加生成延迟和成本
- 需要事实锚定检查,避免生成假设污染答案
常见用途
- 改善短自然语言问题的检索效果
- 当用户缺少领域词汇时搜索专业语料
- 为稠密检索生成更丰富的语义查询
- 对比原始查询嵌入和假设文档嵌入的效果
- 处理 RAG 系统中的探索性研究问题
示例
loading...
Loading code...常见问题
HyDE 生成的文本可以作为证据吗?
不可以。生成文本只是检索辅助。最终答案应基于真实检索文档,而不是基于假设片段。
HyDE 在什么情况下最有帮助?
当用户查询较短、较模糊,或用词与索引文档差异较大时,HyDE 通常更有帮助。
HyDE 的主要风险是什么?
假设文档可能包含错误假设。系统必须防止这些假设被当作事实使用。
HyDE 和普通查询改写有什么不同?
查询改写通常生成搜索查询,而 HyDE 生成类似答案或文档的文本,并把它嵌入用于检索。