什么是 索引器(Indexer)?
索引器(Indexer)是管线组件,用于把处理后的文档、分块、向量嵌入、元数据或稀疏检索特征写入可搜索存储系统,以便后续检索。
工作原理
索引器把转换后的文档变成持久化检索资产。它可以把稠密向量写入向量数据库,把文本字段写入搜索引擎,把图关系写入图存储,或同时把混合记录写入多个系统。索引器也是一个运行组件:它必须处理批处理、更新插入、删除、重试、背压、版本管理和重建索引。在受监管或多租户系统中,它还必须保留权限和删除语义,避免检索暴露过期或未授权内容。
主要特点
- 持久化角色:把可检索资产写入向量、搜索、图、数据库或混合存储
- 身份管理:维护文档 ID、分块 ID、来源 ID、索引版本和去重键
- 更新语义:支持更新插入、删除、重建、增量刷新和回滚流程
- 运行韧性:必须处理批处理、重试、部分失败、限流和背压
- 治理影响:把权限、保留规则和删除要求带入检索层
常见用途
- 把向量嵌入和元数据写入向量数据库以支持 RAG
- 维护同时支持 BM25 和向量相似度的混合索引
- 在分块策略或嵌入模型变化后重建索引
- 为合规要求从所有检索存储中删除客户文档
- 在检索质量实验中追踪索引版本
示例
loading...
Loading code...常见问题
索引器和向量数据库是一回事吗?
不是。向量数据库是存储和搜索后端。索引器是准备记录并写入一个或多个后端的管线组件,这些后端可以包括向量数据库、搜索引擎、图存储或自定义数据库。
为什么索引版本很重要?
索引版本让质量实验和回滚成为可能。如果分块策略、嵌入模型、元数据 Schema 或过滤条件发生变化,团队需要知道哪个索引产生了某个检索结果,以及它能否被重建。
来源文档被删除后应如何处理?
索引器应把删除传播到所有包含派生分块、向量、元数据或稀疏特征的检索存储。留下过期记录会带来合规、隐私和答案质量问题。
索引器会影响在线查询延迟吗?
索引通常是离线或异步过程,但它的选择会间接影响在线延迟。分块大小、元数据 Schema、索引类型和混合搜索设计都会影响检索器在查询时要做多少工作。