暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
2019知识图谱数据管理研究综述-王鑫 , 邹磊 , 王朝坤 , 彭鹏 , 冯志勇.pdf
623
36页
6次
2022-05-23
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2019,30(7):21392174 [doi: 10.13328/j.cnki.jos.005841] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
知识图谱数据管理研究综述
1,2
,
3
,
王朝坤
4
,
5
,
冯志勇
1,2
1
(天津大学 智能与计算学部,天津 300350)
2
(天津市认知计算与应用重点实验室,天津 300350)
3
(北京大学 计算机科学技术研究所,北京 100871)
4
(清华大学 软件学院,北京 100084)
5
(湖南大学 信息科学与工程学院,湖南 长沙 410082)
通讯作者: 王鑫, E-mail: wangx@tju.edu.cn
: 知识图谱是人工智能的重要基石.各领域大规模知识图谱的构建和发布对知识图谱数据管理提出了新的
挑战.以数据模型的结构和操作要素为主线,对目前的知识图谱数据管理理论、方法、技术与系统进行研究综述.
,介绍知识图谱数据模型,包括 RDF 图模型和属性图模型,介绍 5 种知识图谱查询语言,包括 SPARQLCypher
GremlinPGQL G-CORE;然后,介绍知识图谱存储管理方案,包括基于关系的知识图谱存储管理和原生知识图谱
存储管理;其次,探讨知识图谱上的图模式匹配、导航式和分析型 3 种查询操作.同时,介绍主流的知识图谱数据库管
理系统,包括 RDF 三元组库和原生图数据库,描述目前面向知识图谱的分布式系统与框架,给出知识图谱评测基准.
最后,展望知识图谱数据管理的未来研究方向.
关键词: 知识图谱;数据管理;数据模型;查询语言;存储管理;查询操作
中图法分类号: TP182
中文引用格式: 王鑫,邹磊,王朝坤,彭鹏,冯志.知识图谱数据管理研究综述.软件学报,2019,30(7):21392174. http://www.jos.
org.cn/1000-9825/5841.htm
英文引用格式: Wang X, Zou L, Wang CK, Peng P, Feng ZY. Research on knowledge graph data management: A survey. Ruan
Jian Xue Bao/Journal of Software, 2019,30(7):21392174 (in Chinese). http://www.jos.org.cn/1000-9825/5841.htm
Research on Knowledge Graph Data Management: A Survey
WANG Xin
1,2
, ZOU Lei
3
, WANG Chao-Kun
4
, PENG Peng
5
, FENG Zhi-Yong
1,2
1
(College of Intelligence and Computing, Tianjin University, Tianjin 300350, China)
2
(Tianjin Key Laboratory of Cognitive Computing and Application, Tianjin 300350, China)
3
(Institute of Computer Science and Technology, Peking University, Beijing 100871, China)
4
(School of Software, Tsinghua University, Beijing 100084, China)
5
(College of Computer Science and Electronic Engineering, Hunan University, Changsha 410082, China)
Abstra ct : Knowledge graphs have become the cornerstone of artificial intelligence. The construction and publication of large-scale
knowledge graphs in various domains have posed new challenges on the data management of knowledge graphs. In this paper, in
accordance with the structural and operational elements of a data model, the current theories, methods, technologies, and systems of
knowledge graph data management are surveyed. First, the paper introduces knowledge graph data models, including the RDF graph
基金项目: 国家自然科学基金(61572353); 天津市自然科学基金(17JCYBJC15400)
Foundation item: National Natural Science Foundation of China (61572353); Natural Science Foundation of Tianjin of China (17JCYBJC
15400)
收稿时间: 2018-09-18; 修改时间: 2019-02-20; 采用时间: 2019-03-25; jos 在线出版时间: 2019-04-10
CNKI 网络优先出版: 2019-04-09 17:32:35, http://kns.cnki.net/kcms/detail/11.2560.TP.20190409.1732.009.html
2140
Journal of Software 软件学报 Vol.30, No.7, July 2019
model and the property graph model, and also introduces 5 knowledge graph query languages, including SPARQL, Cypher, Gremlin,
PGQL, and G-CORE. Second, the storage management schemes of knowledge graphs are presented, including relational-based and native
approaches. Third, three kinds of query operations are discussed, which are graph pattern matching, navigational, and analytical queries.
Fourth, the paper introduces mainstream knowledge graph database management systems, which are categorized into RDF triple stores
and native graph databases. Meanwhile, the state-of-the-art distributed systems and frameworks that are used for processing knowledge
graphs are also described, and benchmarks are presented for knowledge graphs. Finally, the future research directions of knowledge graph
data management are put forward as well.
Key words: knowledge graph; data management; data model; query language; storage management; query operation
知识图谱作为符号主义发展的最新成果,是人工智能的重要基石.随着知识图谱规模的日益扩大,其数据管
理问题愈加重要.一方面,以文件形式保存知识图谱无法满足用户的查询、检索、推理、分析及各种应用需求;
另一方面,传统数据库的关系模型与知识图谱的图模型之间存在显著差异,关系数据库无法有效管理大规模知
识图谱数据.为了更好地管理知识图谱,语义 Web 领域发展出专门存储 RDF 数据的三元组库;数据库领域发展
出用于管理属性图的图数据库.但是目前还没有一种数据库系统被公认为是具有主导地位的知识图谱数据库.
目前,规模为百万顶点(10
6
)和上亿条边(10
8
)的知识图谱数据集已经常见.链接开放数据 2018 8 月发布的
LOD 云图中很多知识图谱数据集规模超过 10 亿条三元组.例如,维基百科知识图谱 DBpedia(>30 亿条)、地
信息知识图谱 LinkedGeoData(>30 亿条)和蛋白质知识图谱 UniProt(>130 亿条).各领域大规模知识图谱的构
建和发布对知识图谱数据管理提出了新的挑战.本文将遵循数据管理领域的良好传统,以数据模型的结构和操
作两大要素为主线,对目前的知识图谱数据管理理论、方法、技术与系统等方面的研究与实践进行综述.
数据模型是任何数据管理领域的基础与核心.众所周知,数据模型包括数据的结构、操作和约束.由于知识
图谱数据管理尚处于起步阶段,知识图谱数据模型的结构和操作方面还未发展完善,约束方面仅有尚在制定中
RDF Shapes 约束语言
[1]
等少量研究工作,故而本文仅综述知识图谱数据模型中的结构和操作要素.本文首先
介绍目前知识图谱的两种主流数据模型:RDF 图模型和属性图模型;之后,作为知识图谱数据模型的操作,介绍 5
种知识图谱查询语言,包括 SPARQLCypherGremlinPGQL G-CORE;接着,介绍如何使用各种存储管理
方案实现知识图谱逻辑模型的物理存储,包括基于关系的知识图谱存储管理和原生知识图谱存储管理;然后,
讨知识图谱上 3 种主要的查询操作类型,即图模式匹配、导航式和分析型查询;最后,介绍实现了知识图谱数据
模型的主流数据库管理系统,包括 RDF 三元组库和原生图数据库,同时描述目前面向知识图谱的各种分布式系
统与框架,并简要介绍知识图谱评测基准.本文最后对知识图谱数据管理的未来研究方向进行展望.作为阅读指
, 1给出了本综述各部分内容之间的总体路线图.
Fig.1 A roadmap of the contents of this survey
1 本文各部分内容的总体路线图
of 36
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜