什么是 GraphRAG?
GraphRAG(Graph Retrieval-Augmented Generation)是一种高级的 AI 检索架构。它在数据入库阶段使用 LLM 提取文本中的实体和关系构建知识图谱,在查询阶段结合图谱检索和向量检索,从而显著提升 LLM 在处理复杂逻辑、跨文档推理和全局摘要任务时的准确性。
快速了解
| 全称 | 基于图谱的检索增强生成 |
|---|---|
| 创建时间 | 近年来随着 LLM 架构演进逐渐普及 |
工作原理
传统的 Naive RAG 主要依赖将文档切块并进行向量化(Embedding),通过计算向量相似度来召回相关文本片段。这种方式在处理事实提取时很有效,但在需要跨多个文档进行逻辑推理、或者概念存在歧义时往往表现不佳。GraphRAG 通过引入知识图谱解决了这一痛点。其核心流程包括:1) 实体抽取:将非结构化文本转化为结构化的三元组(实体-关系-实体);2) 社区检测:将图谱划分为不同层级的社区并生成摘要;3) 混合检索:在用户提问时,不仅检索相似的文本片段,还检索图谱中的相关实体、关系和社区摘要。这种机制为 LLM 提供了极其丰富的“全局结构化上下文”,极大降低了幻觉,提升了复杂推理能力。
主要特点
- 实体与关系提取:利用 LLM 将非结构化文本结构化
- 图数据库驱动:通常依赖 Neo4j 等图数据库进行存储和查询
- 社区摘要(Community Summaries):提供不同层级的全局视角
- 混合检索(Hybrid Search):结合向量匹配与图谱关系遍历
- 解决跨文档推理:擅长处理需要整合分散信息的复杂 Query
- 高构建成本:索引阶段需要频繁调用 LLM,计算成本较高
常见用途
- 复杂问答系统:解答涉及多个人物、事件或概念相互关系的复杂问题
- 全局文档摘要:针对超大型语料库生成结构化的高层次总结
- 反欺诈与风控:在金融领域通过关系网络发现隐藏的欺诈模式
- 医疗与科研辅助:挖掘不同文献中蛋白质、基因、疾病的潜在联系
- 企业知识库:为企业提供具备深度推理能力的内部知识问答助手
示例
loading...
Loading code...常见问题
GraphRAG 和 Naive RAG 有什么区别?
Naive RAG 只是简单地将文档切块、向量化并进行相似度比对。GraphRAG 在此基础上增加了一层知识图谱,通过提取实体和关系,让 AI 能够理解概念之间的逻辑联系,擅长处理跨文档的复杂推理问题。
构建 GraphRAG 的成本高吗?
是的。在数据入库阶段,GraphRAG 需要使用 LLM 遍历所有文本以提取实体和关系,这个过程会消耗大量的 Token。因此,通常只在对准确率和复杂推理要求极高的场景下使用。
什么是 GraphRAG 中的混合检索(Hybrid Search)?
混合检索是指在查询阶段,系统同时执行两种搜索:一是基于 Embedding 的向量搜索,召回具体的文本块;二是基于实体匹配的图谱搜索,召回关系网络。最后将两者结合作为 Context 喂给 LLM。