什么是 稀疏检索(Sparse Retrieval)?
稀疏检索(Sparse Retrieval)是一种词法搜索方法,它用稀疏词项权重向量表示查询和文档,并通过显式词项匹配检索结果。
工作原理
稀疏检索是经典搜索引擎背后的检索方法家族,包括 BM25 风格排序。它奖励包含重要查询词的文档,尤其适合精确名称、错误码、API 字段、法律短语、商品 SKU,以及其他语义嵌入可能模糊处理的 token。在 RAG 系统中,稀疏检索常与稠密检索结合,让系统同时捕捉字面相关性和语义相关性。
主要特点
- 以显式词项出现和词项权重作为主要检索信号
- 擅长精确字符串、标识符、罕见词、数字和领域专有词
- 相比许多纯嵌入检索方法更容易解释
- 当相关文档与查询用词不同时效果较弱
- 常作为生产 RAG 混合搜索的一条检索分支
常见用途
- 按精确 API 方法或配置键查找文档
- 通过错误码或日志片段检索故障事件
- 搜索要求精确措辞的法律或合规文本
- 把 BM25 与稠密检索结合用于混合 RAG
- 在引入嵌入搜索前提供可解释检索基线
示例
loading...
Loading code...常见问题
稀疏检索过时了吗?
没有。它在精确匹配、罕见词、结构化标识符,以及补充稠密检索方面仍然很有价值。
为什么稀疏检索适合错误码?
错误码是字面 token。词法方法可以直接匹配它们,而嵌入模型未必能保留其精确身份。
稀疏检索最大的弱点是什么?
如果相关文档使用了查询中没有出现的不同表达、同义词或改写,它可能无法命中。
稀疏检索在 RAG 中如何使用?
它常与稠密检索并行使用,然后在送入生成模型前进行结果融合或重排。