什么是 文档转换器(Document Transformer)?

文档转换器(Document Transformer)是在文档被嵌入、索引、检索或语言模型消费之前,对已加载文档进行清洗、分块、增强、过滤或结构重组的管线组件。

工作原理

文档转换器是原始加载内容变成可检索知识的关键阶段。它可以去除样板文本、规范化空白、保留标题结构、抽取表格、脱敏敏感字段、去重重复内容、添加元数据、检测语言,或把文档切分为分块。这个阶段对 RAG 质量影响很大:糟糕的转换会破坏文档结构、切断引用、泄露敏感数据,或产生过宽、过窄而难以可靠检索的分块。

主要特点

  • 加载后处理:位于文档加载器之后,嵌入、索引或模型消费之前
  • 结构感知转换:可以保留标题、列表、表格、章节、页码和语义边界
  • 质量控制:去除噪声、重复内容、样板文本、异常文本和无关章节
  • 治理支持:可执行脱敏、过滤、元数据增强和基于策略的排除
  • 确定性设计:应可复现,便于重建索引版本和审计

常见用途

  1. 把长篇政策手册按标题结构切分为适合 RAG 检索的分块
  2. 从爬取 HTML 中去除导航、Cookie 横幅和页脚文本
  3. 从 PDF 文档中抽取表格并保留页码引用
  4. 在索引企业内容前脱敏个人身份信息
  5. 添加产品、语言、部门、权限或文档版本元数据

示例

loading...
Loading code...

常见问题

文档转换器和文档加载器有什么区别?

文档加载器从来源读取内容并标准化为文档对象。文档转换器则修改这些文档:在索引或模型使用前进行清洗、分块、增强、过滤或结构重组。

为什么文档转换质量会影响 RAG?

检索质量高度依赖被索引文档。如果转换阶段破坏标题、混合无关章节、丢失表格或产生糟糕分块,即使嵌入模型很好,检索器也可能返回误导性证据。

文档转换应该是确定性的吗?

是的,生产转换应尽可能确定。确定性可以让重建索引、审计、回归测试和不同管线版本之间的质量比较更可靠。

文档转换器能执行数据治理吗?

它可以提供帮助,但不应是唯一控制点。转换器可以脱敏、过滤和标记敏感内容,同时权限检查也应在加载、索引、检索和答案生成阶段执行。

相关工具

相关术语

相关文章