什么是 稀疏检索(Sparse Retrieval)?

稀疏检索(Sparse Retrieval)是一种词法搜索方法,它用稀疏词项权重向量表示查询和文档,并通过显式词项匹配检索结果。

工作原理

稀疏检索是经典搜索引擎背后的检索方法家族,包括 BM25 风格排序。它奖励包含重要查询词的文档,尤其适合精确名称、错误码、API 字段、法律短语、商品 SKU,以及其他语义嵌入可能模糊处理的 token。在 RAG 系统中,稀疏检索常与稠密检索结合,让系统同时捕捉字面相关性和语义相关性。

主要特点

  • 以显式词项出现和词项权重作为主要检索信号
  • 擅长精确字符串、标识符、罕见词、数字和领域专有词
  • 相比许多纯嵌入检索方法更容易解释
  • 当相关文档与查询用词不同时效果较弱
  • 常作为生产 RAG 混合搜索的一条检索分支

常见用途

  1. 按精确 API 方法或配置键查找文档
  2. 通过错误码或日志片段检索故障事件
  3. 搜索要求精确措辞的法律或合规文本
  4. 把 BM25 与稠密检索结合用于混合 RAG
  5. 在引入嵌入搜索前提供可解释检索基线

示例

loading...
Loading code...

常见问题

稀疏检索过时了吗?

没有。它在精确匹配、罕见词、结构化标识符,以及补充稠密检索方面仍然很有价值。

为什么稀疏检索适合错误码?

错误码是字面 token。词法方法可以直接匹配它们,而嵌入模型未必能保留其精确身份。

稀疏检索最大的弱点是什么?

如果相关文档使用了查询中没有出现的不同表达、同义词或改写,它可能无法命中。

稀疏检索在 RAG 中如何使用?

它常与稠密检索并行使用,然后在送入生成模型前进行结果融合或重排。

相关工具

相关术语

相关文章