什么是 文档转换器(Document Transformer)?
文档转换器(Document Transformer)是在文档被嵌入、索引、检索或语言模型消费之前,对已加载文档进行清洗、分块、增强、过滤或结构重组的管线组件。
工作原理
文档转换器是原始加载内容变成可检索知识的关键阶段。它可以去除样板文本、规范化空白、保留标题结构、抽取表格、脱敏敏感字段、去重重复内容、添加元数据、检测语言,或把文档切分为分块。这个阶段对 RAG 质量影响很大:糟糕的转换会破坏文档结构、切断引用、泄露敏感数据,或产生过宽、过窄而难以可靠检索的分块。
主要特点
- 加载后处理:位于文档加载器之后,嵌入、索引或模型消费之前
- 结构感知转换:可以保留标题、列表、表格、章节、页码和语义边界
- 质量控制:去除噪声、重复内容、样板文本、异常文本和无关章节
- 治理支持:可执行脱敏、过滤、元数据增强和基于策略的排除
- 确定性设计:应可复现,便于重建索引版本和审计
常见用途
- 把长篇政策手册按标题结构切分为适合 RAG 检索的分块
- 从爬取 HTML 中去除导航、Cookie 横幅和页脚文本
- 从 PDF 文档中抽取表格并保留页码引用
- 在索引企业内容前脱敏个人身份信息
- 添加产品、语言、部门、权限或文档版本元数据
示例
loading...
Loading code...常见问题
文档转换器和文档加载器有什么区别?
文档加载器从来源读取内容并标准化为文档对象。文档转换器则修改这些文档:在索引或模型使用前进行清洗、分块、增强、过滤或结构重组。
为什么文档转换质量会影响 RAG?
检索质量高度依赖被索引文档。如果转换阶段破坏标题、混合无关章节、丢失表格或产生糟糕分块,即使嵌入模型很好,检索器也可能返回误导性证据。
文档转换应该是确定性的吗?
是的,生产转换应尽可能确定。确定性可以让重建索引、审计、回归测试和不同管线版本之间的质量比较更可靠。
文档转换器能执行数据治理吗?
它可以提供帮助,但不应是唯一控制点。转换器可以脱敏、过滤和标记敏感内容,同时权限检查也应在加载、索引、检索和答案生成阶段执行。