于8月30日至8月31日在广州举办的LDBC的TUC (Technical User Community) 会议作为LDBC最重要的社区会议,LDBC社区内外的图领域学者和工程师相聚在一起进行学术工业前沿、技术热点交流。GraphRAG作为近期大模型与图领域相结合的热点话题,也是本届TUC会议的演讲专题之一,会上有来自Ontotext公司,Oracle公司以及TuGraph团队的嘉宾发表了相关的演讲并引起了热烈的讨论。
图索引技术的选择成为了本次GraphRAG演讲专题中最大的关注点,对于GraphRAG技术中具体使用的索引技术,演讲嘉宾们各抒己见。Ontotext公司介绍了旗下GraphDB对GraphRAG的索引技术中的文本索引与图索引的支持,Oracle公司则从向量索引出发介绍了其对于GraphRAG技术框架的设计,蚂蚁TuGraph团队介绍的GraphRAG最新研究成果则是在普通的向量索引技术基础上进行了进一步的创新。
GraphRAG 专题演讲回顾
Graph RAG Varieties
Ontotext公司CEO,Atanas Kiryakov从索引技术的角度,介绍了图与RAG相结合的多种方式,并展示了公司旗下图数据库GraphDB对各种结合方式的支持。
GraphDB与RAG相结合的方式主要有以下三种:
Graph as Metadata Store(将图作为元数据存储)用文本索引将图数据库用作文本索引的存储介质,仅储存文档,不存储任何额外信息,仅从文本中获取知识进行生成增强;
Graph as an Expert(将图作为专家) 将图数据库用作文本索引的存储介质,并在此基础上根据文本中包含的实体,向文档尾部附加实体对应的领域知识,进一步丰富文本并从丰富后的文本中获取知识进行生成增强;
Graph as a Database (将图作为数据库)发挥图数据库本身的能力,将文档与其中包含的实体相连接,共同创建知识图谱,并通过图查询的方式获取知识进行生成增强。
针对以上三种与RAG结合的方式,Atanas Kiryakov还介绍了GraphDB为了支持RAG以及AI相关技术最新开发的CEEL Entity Linking技术与GraphDB’s ChatGPT Retrieval Connector等。CEEL Entity Linking技术是GraphDB开发的针对wikidata的实体链接技术,可以在上述提到的将图作为专家与将图作为数据库的结合方式中帮助开发者将文档与wikidata中的实体进行链接,链接准确率达到76%,业界领先。GraphDB’s ChatGPT Retrieval Connector则是GraphDB开发的简化RAG开发门槛的工具,可以做到零代码基于文本索引运行RAG。
随后Atanas Kiryakov又介绍了另一个主题,NASA RAG Problem,这一问题指如果两个实体之间的关系是默认的常识(如NASA是一个美国政府部门)并且很少在文本中被提起,那么将很难用传统RAG文本检索的方式(第一种结合方式)从一个实体检索到另一个实体(即在“美国政府部门有哪些?”这一问题的答案中找到NASA)。GraphDB将NASA RAG Problem这一问题作为例子,给出了在另外两种不同结合方式下的RAG具体解决方案:
方案一:Graph as an Expert(将图作为专家),通过CEEL Entity Linking将文档与文本中提到的Wikidata实体关联起来,并用Wikidata实体的描述丰富文档内容,揭示文档背后的内在联系。最后使用GraphDB’s ChatGPT Retrieval Connector提问并获得答案。
方案二:Graph as a Database (将图作为数据库),将文档加载到图数据库中,利用CEEL Entity Linking将文档与文本中提到的Wikidata实体关联起来形成图,最后将自然语言问题转换为图查询语言查找图数据库中的文档。
以上两种方案均可以零代码量在GraphDB上实现。
演讲回放:
Graphs, Graph-RAG, and LLMs: An Introduction
Oracle Labs的Damien Hilloulin为我们简要介绍了基于向量索引的Graph RAG的整体流程与架构:
1. 创建领域知识图谱;
2. 通过DeepWalk,Pg2Vec,GraphWise等算法将图项量化并存入向量数据库;
3. 将自然语言问题项量化并与向量数据库中的向量进行匹配;
4. 返回最相关的子图内容给大模型作为prompt,生成最终回答。
谈及AI与图结合的其他应用时,也提及了Text2GQL,与日前TuGraph在公众号文章中介绍实现方法不同,Oracle介绍了基于fewshot而非微调的思路:
1. 事先将大量query模板存入向量数据库;
2. 将与自然语言问题最相关的top K的query模板作为prompt返回给大模型;
3. 大模型基于返回的query模板与自然语言问题,生成实际可执行的query。
演讲回放:
Subgraph Retrieval Enhanced by Graph-Text Alignment for Commonsense Question Answering
TuGraph团队成员彭泊词深入解读了发表在ECML-PKDD 2024上的论文。该论文提出了一种名为SEPTA(Subgraph REtrieval Enhanced by GraPh-Text Alignment)的创新框架,旨在解决常识问答任务中的难题。SEPTA框架通过将知识图谱转化为子图向量数据库,并利用BFS和消息传递机制之间的相似性,采用类BFS的子图采样策略,避免信息丢失。同时,该框架还提出了一种双向对比学习方法,用于图文对齐,从而有效提升了子图检索和知识融合的效果。广泛的实验结果表明,SEPTA框架在五个公开常识问答数据集上展现出了出色的性能和鲁棒性。此外,彭泊词还简要介绍了蚂蚁集团联合北京大学、浙江大学等高校联合发布的全球第一篇GraphRAG综述:Graph Retrieval-Augmented Generation: A Survey。
演讲回放:
总结
本次LDBC TUC会议的GraphRAG演讲专题有着来自各国专家的精彩演讲,带来了各具特色的GraphRAG技术介绍。我们很高兴地看到图技术随着大模型技术的兴起也越来越受到关注,国内的图社区也越来越成熟繁荣。
TuGraph团队一直秉持开放合作、协同共赢的理念,携手其他友商伙伴共建图技术生态,让图技术更好地服务业务,带来一些微小美好的改变。


欢迎关注TuGraph代码仓库✨
https://github.com/tugraph-family/tugraph-db
https://github.com/tugraph-family/tugraph-analytics




