什么是稀疏检索（Sparse Retrieval）？

稀疏检索（Sparse Retrieval）是一种词法搜索方法，它用稀疏词项权重向量表示查询和文档，并通过显式词项匹配检索结果。

工作原理

稀疏检索是经典搜索引擎背后的检索方法家族，包括 BM25 风格排序。它奖励包含重要查询词的文档，尤其适合精确名称、错误码、API 字段、法律短语、商品 SKU，以及其他语义嵌入可能模糊处理的 token。在 RAG 系统中，稀疏检索常与稠密检索结合，让系统同时捕捉字面相关性和语义相关性。

主要特点

以显式词项出现和词项权重作为主要检索信号
擅长精确字符串、标识符、罕见词、数字和领域专有词
相比许多纯嵌入检索方法更容易解释
当相关文档与查询用词不同时效果较弱
常作为生产 RAG 混合搜索的一条检索分支

常见用途

按精确 API 方法或配置键查找文档
通过错误码或日志片段检索故障事件
搜索要求精确措辞的法律或合规文本
把 BM25 与稠密检索结合用于混合 RAG
在引入嵌入搜索前提供可解释检索基线

示例

loading...

Loading code...

常见问题

稀疏检索过时了吗？

没有。它在精确匹配、罕见词、结构化标识符，以及补充稠密检索方面仍然很有价值。

为什么稀疏检索适合错误码？

错误码是字面 token。词法方法可以直接匹配它们，而嵌入模型未必能保留其精确身份。

稀疏检索最大的弱点是什么？

如果相关文档使用了查询中没有出现的不同表达、同义词或改写，它可能无法命中。

稀疏检索在 RAG 中如何使用？

它常与稠密检索并行使用，然后在送入生成模型前进行结果融合或重排。

相关工具

文本分析器

免费在线全能文本分析与高级字数统计工具。提供极其详尽的字数、总字符数、句子数、段落数精确统计功能，全面支持多语言智能分词(包含中文字符与英文字词独立识别统计)。提供核心高频关键词提取分析、用户平均阅读时间预估和文本排版特征深度检测。专为职业作家、文案编辑、自媒体运营和学生群体设计的文本内容优化辅助神器，即开即用。

JSON 格式化

免费在线JSON格式化(Format)与美化解析工具，一键快速格式化、语法校验和压缩任意复杂的JSON数据字符串。支持直观的代码语法高亮显示、可折叠的交互式树形视图(Tree View)、最近格式化历史记录保存和一键快速复制结果。广泛适用于前后端API接口调试、日志数据分析、以及各类系统配置文件编辑。无需注册登录，100%纯前端本地处理，绝不泄露您的数据隐私。

AI网站导航

权威、全面且持续更新的 AI 人工智能工具与生态资源导航目录。深度覆盖全球与国内顶尖的大语言模型提供商、开放生态与开源项目、前沿学术研究索引与评测排行榜、以及开发者必备的平台与工具目录等。为你提供快速发现、横向能力对比与高效技术选型的最佳入口。支持精准的关键词搜索与个人收藏分组功能，分类分区清晰易用，助你轻松掌握 AI 时代生产力。

相关术语

BM25

BM25 是一种概率词法排序函数，它根据查询词匹配、词频饱和、逆文档频率和文档长度归一化为文档打分。

稠密检索（Dense Retrieval）

稠密检索（Dense Retrieval）是一种语义搜索方法，它把查询和文档表示为稠密嵌入向量，并通过向量相似度检索结果。

Hybrid Search

Hybrid Search（混合检索）是一种在信息检索和 RAG（检索增强生成）系统中同时使用多种搜索算法的技术。最常见的组合是将捕获上下文和概念含义的**密集向量检索（Dense Vector Retrieval）**与专注于精确词汇匹配和特定实体查找的**稀疏关键词检索（Sparse Keyword Retrieval，通常指 BM25 算法）**融合在一起。系统分别运行这两路搜索，然后通过融合算法（如 RRF，倒数排名融合）将它们的结果合并，从而在理解用户意图的同时，确保不会漏掉包含特定产品名称、ID 或行业黑话的关键文档。

检索增强生成

检索增强生成是一种 AI 架构，通过在生成响应之前从外部知识库检索相关信息来增强大语言模型的输出，结合信息检索系统和生成式 AI 的优势，产生更准确、更新和可验证的答案。

相关文章

多模态RAG进阶：图文混合检索与跨模态对齐【2026】

面向生产环境讲解高级多模态 RAG 的跨模态检索与对齐工程。覆盖 CLIP、SigLIP、ColPali、图文混合召回、延迟交互、模态感知重排序、分数校准、线上漂移监控、Python 与 TypeScript 实现，帮助团队稳定处理文本查图、图查文、PDF 页面检索和视觉文档问答，并解决表格、图表、扫描件在传统文本 RAG 中丢失语义的问题。

语义搜索完全指南【2026】- 从原理到实战构建智能搜索系统

深入学习与理解基于 AI 深度学习的语义搜索(Semantic Search)核心技术原理。全面对比分析基于 TF-IDF/BM25 算法的传统关键词搜索机制与基于高维向量(Vector Embedding)相似度的语义匹配引擎优劣。教你如何结合混合检索(Hybrid Search)策略与 Reranking 重排模型，构建高精准度的企业级电商搜索与私有知识库问答系统。

RAG检索质量优化方案：从Rerank到Hybrid Search

深入解析企业级 RAG 检索质量优化方案，说明纯向量检索在专有名词、型号、代码和精确数值场景下为何失效。覆盖 Hybrid Search、BM25、Dense Retrieval、RRF 融合、Cross-Encoder Rerank、两阶段检索管道、延迟权衡和 Python 实战代码，帮助开发者提升 Top-K 召回准确率。