什么是 文档加载器(Document Loader)?
文档加载器(Document Loader)是内容摄取组件,从文件、网页、对象存储、数据库、SaaS 系统或 API 读取原始内容,并转换为供下游 AI 处理的标准化文档表示。
工作原理
文档加载器位于外部内容系统和 AI 管线的边界。它的职责不只是抽取文本,还应保留来源身份、内容类型、时间戳、负责人、权限、校验和,以及索引、访问控制、增量刷新和引用所需的其他元数据。在 RAG 系统中,加载器质量决定了后续阶段能否把答案追溯到正确来源,也决定过期或未授权内容能否在进入模型前被排除。
主要特点
- 面向来源的组件:连接文件、网页、代码仓库、数据库、存储桶、SaaS 工具或 API
- 标准化角色:把异构原始内容转换为管线可处理的一致文档对象
- 元数据保留:应保留来源 URI、内容类型、负责人、权限、时间戳和版本线索
- 运行职责:必须处理分页、限流、重试、部分失败和增量同步
- 治理边界:影响下游检索能否遵守数据新鲜度、租户隔离和访问控制
常见用途
- 把内部 Wiki 页面和产品文档加载到 RAG 知识库
- 摄取 PDF、Markdown 文件、工单或支持文章并保留来源元数据
- 把对象存储文档同步到索引管线
- 读取将被检索的数据库行或 SaaS 记录
- 为必须可审计的答案构建支持引用溯源的文档记录
示例
loading...
Loading code...常见问题
文档加载器和解析器是一回事吗?
不完全是。解析器通常负责从 PDF、HTML 或 Markdown 等特定格式中抽取结构或文本。文档加载器通常还包括来源访问、分页、元数据捕获、权限、重试和标准化,最终输出管线可用的文档对象。
为什么文档加载器中的元数据很重要?
元数据是访问控制、引用、去重、增量索引、新鲜度检查和审计的基础。如果加载器丢失来源身份或权限信息,后续检索和生成阶段就无法可靠执行治理规则。
文档加载器常见失败模式有哪些?
常见失败包括静默跳过页面、丢失文件层级、错误剥离表格、忽略限流、跨同步重复文档、混合不同租户内容,以及加载用户不应被允许检索的内容。
文档加载器在 RAG 管线中处于什么位置?
它通常是第一阶段。加载器读取并标准化来源内容,随后文档转换器清洗或切分内容,嵌入模型把分块转为向量,索引器持久化结果,检索器在查询时取回相关上下文。