什么是文档加载器（Document Loader）？

文档加载器（Document Loader）是内容摄取组件，从文件、网页、对象存储、数据库、SaaS 系统或 API 读取原始内容，并转换为供下游 AI 处理的标准化文档表示。

工作原理

文档加载器位于外部内容系统和 AI 管线的边界。它的职责不只是抽取文本，还应保留来源身份、内容类型、时间戳、负责人、权限、校验和，以及索引、访问控制、增量刷新和引用所需的其他元数据。在 RAG 系统中，加载器质量决定了后续阶段能否把答案追溯到正确来源，也决定过期或未授权内容能否在进入模型前被排除。

Loading code...

不完全是。解析器通常负责从 PDF、HTML 或 Markdown 等特定格式中抽取结构或文本。文档加载器通常还包括来源访问、分页、元数据捕获、权限、重试和标准化，最终输出管线可用的文档对象。

元数据是访问控制、引用、去重、增量索引、新鲜度检查和审计的基础。如果加载器丢失来源身份或权限信息，后续检索和生成阶段就无法可靠执行治理规则。

常见失败包括静默跳过页面、丢失文件层级、错误剥离表格、忽略限流、跨同步重复文档、混合不同租户内容，以及加载用户不应被允许检索的内容。

它通常是第一阶段。加载器读取并标准化来源内容，随后文档转换器清洗或切分内容，嵌入模型把分块转为向量，索引器持久化结果，检索器在查询时取回相关上下文。