0
PandaDB:一种异构数据智能融合管理系统-沈志宏/赵子豪/王华进/等.pdf
169
18页
4次
墨值0
软件学报 ISSN 1000-9825, CODEN RUXUEW
Journal of Software, [doi: 10.13328/j.cnki.jos.006180]
©国科学院软件研究所版权所.
PandaDB:
一种异构数据能融合管理系
1
,
1,2
,
1
,
1
,
1,2
,
1
(国科学院计算机网络信中心 100190)
2
(国科学院大学 100049)
通讯作者: , E-mail: bluejoe@cnic.cn
: 随着大数据应用的不断深入,对大规
结构化
结构化/非结构化数据在存储管理方式、
信息获取方
本文提出了适用于异构
数据融合管理和语义计算的属性图
于智能属性图模型提出异构数据智能融合管理系统
PandaDB
询机制、属性协存和 AI 算法集成机制.性能测试和
应用
制对大规模异构数据的即席查询和分析具有较好的
性能
融合数据管理场景.
关键词: 数据管理系统;异构数据融合;图数据模型;
即席查询
图法类号: TP311
: , , , , ,
http://www.jos.org.cn/1000-9825/6180.htm
英文引用格式: Shen
ZH, ZHAO ZH, Wang HJ, Liu ZX, Hu C, Zhou YC
heterogeneous data.
Ruan Jian Xue Bao/Journal of Software, 2021 (in Chinese).
PandaDB: An Intelligent Management S
ystem
SHEN Zhi-Hong
1
, ZHAO Zi-Hao
1,2
, WANG Hua-
Jin
1
(
Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China
2
(
University of Chinese Academy of Sciences, Beijing 100049, China
Abstract:
With the development of big data application, the demand of large
analysis is becoming increasingly prominent. However, th
e differences in management, process,
brings challenges for fusion management and analysis.
This paper propose
fusion management and semantic computing, defines related
property
model, this paper implements PandaDB,
an intelligent heterogeneous data fusion management system
storage mechanism, query mechanism, property co-
storage, AI algorithm scheduling and distributed architecture of PandaDB. Test
experiments and cases show that the co-
storage mechanism and distributed architecture of
effects, and can be applied i
n some scenarios of fusion data intelligent management such as
disambiguation.
Key words: Data Management System;
Heterogeneous data fusion
金项: 国科学院战略性先导科技专 B 课题(
XDB38030300
法工作专(2019IM020100),中国科学院信息化专项课(
XXH13503
Foundation item: Strategic Priority
Research Program of CAS (XDB38030300)
of China(61836013);
Ministry of Science and Technology Innovation Methods Special work Project under grant (2019IM020100)
Informatization Plan of Chinese Academy of
Sciences(XXH13503)
收稿时间: 2020-07-20; 改时: 2020-09-03; 改时
: 2020
E-mail: jos@iscas.ac.cn
http://www.jos.org.cn
Tel: +86-10-62562563
一种异构数据能融合管理系
1,2
结构化
/非结构化数据进行融合管理和分析的需求日益凸显.,
信息获取方
、检索方式方面的差异给融合管理和分析带来了技术挑战.
数据融合管理和语义计算的属性图
扩展模型,并定义了相关属性操作符和查询语法.接着,
PandaDB
,并详细介绍了 PandaDB 的总体架构、存储机制、查
应用
案例证明,PandaDB 的协存机制、分布式架构和语义索引机
性能
表现,系统可实际应用于学术图谱实体消歧与可视化等
即席查询
;人工智能.
.PandaDB: . .
ZH, ZHAO ZH, Wang HJ, Liu ZX, Hu C, Zhou YC
. PandaDB: An intelligent management system for
Ruan Jian Xue Bao/Journal of Software, 2021 (in Chinese).
http://www.jos.org.cn/1000-9825/6180.htm
ystem
for Heterogeneous Data
Jin
1
, LIU Zhong-Xin
1
, HU Chuan
1,2
, ZHOU Yuan-Chun
1
Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China
)
University of Chinese Academy of Sciences, Beijing 100049, China
)
With the development of big data application, the demand of large
-scale structured/unstructured data fusion management and
e differences in management, process,
retrieval of structured/unstructured data
This paper propose
s an extended property graph model for heterogeneous data
property
operators and query syntax. Based on the intelligent property graph
an intelligent heterogeneous data fusion management system
. This paper depicts the architecture,
storage, AI algorithm scheduling and distributed architecture of PandaDB. Test
storage mechanism and distributed architecture of
PandaDB have good performance acceleration
n some scenarios of fusion data intelligent management such as
academic knowledge graph entity
Heterogeneous data fusion
; Graph Data Model; Ad-hoc Query; AI.
XDB38030300
);家自然科学基金重点项((61836013);技部创新
XXH13503
)
Research Program of CAS (XDB38030300)
; Key Project of National Natural Science Foundation
Ministry of Science and Technology Innovation Methods Special work Project under grant (2019IM020100)
;
Sciences(XXH13503)
: 2020
-11-06; jos 线出版时: 2021-01-20
沈志宏 : PandaDB:一种面向异构数据的智能融合管理系统
2
1
在大据时,着各应用的推广使用,据产速度来越快、数据体量来越.一方,据采集技
的迅使得数更多类更.数据异构,数据占有
大比.研究,视频、音、图等非结构数据据高 90%
[1]
;另方面,近年,数据台、
识图据管得到广的应.数据结构/据能一的
到良治理,便持多应用知识,特别多模知识
[2]
,要求底层构化/构化据进
合关分析,并支户进交互查询.术均出对构化/化数进行合管分析
.
结构数据常具有较规范统一形式.,针对结构数据管理和分,具有成熟数据型、
.,,/
构化据的合管理和析带了多面的挑战:
(1) ,/统一.相对,
的空,,独存,者对,
这使维护构化/构化数据致性难度增大
(2) ,/据的.相对,
据内较复,现高索和,往需先引式识、深习等实现
息抽和数挖掘,获取非结化数所蕴含的在信
(3) ,/.
熟的 SQL SQL 语言的现不同,构化据的信息索往缺乏统一操作式和
语法,目前采用多是案的个性方案.
为实结构/结构数据的融管理分析,要从型层面出,计统一的示和询方.传统
的关模型属性图模不能效揭和表示非构化据的在信.学者提出数据 Schema 示为
边标,以此代非构化数据层类约束的缺
[3]
.方法提出一种非结化数添加 Schema
方法,不能实现非结化数据中息的由检.Li 提出从基属性语义特征底层征和始数
等四角度义非结构数据
[4]
,种方法依于预,并不适用非结化数据的互查.年来有学
者提在非构化数据上抽 RDF 组的
[5]
,法只现了元组的抽,能支持对结构
据内信息交互式查,并不备数管理系统基本.
另外种融管理的路线是将结构数据在数库中储为进制大对BLOB,Binary Large
OBject,当应用获数据时候,回一二进数组或者据流.方法性能和功上都令人满意
[6]
.
针对问题,人员出了一系非结化数据管系统
[7][8][9]
,系统综合虑了结构化数体积
结构杂的,设计合适的存模型,定程上解了非结构数据存储和管问题,提供的查
服务基于件对象本和元,不能供对结构化数内在息的查询.
,出属型及方法.性图在传的基非结
内在息的能力,以及化和结构据之的互能力.基础,继而出基能属
性图型的构数据智融合理系 PandaDB.
本文 2 给出属性扩展型和相关,包括层叠性图智能属性、次属性,并提属性
操作和查语法. 3 节中给出 PandaDB 统设与具体实.在第 4 中通实验和案验证系统
的效及可. 5 绍与文研究相的工.,对未来研可能临的挑战行展.
2 念设
统属无法结构,图扩,非结的有
of 18
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜
近期活动
全部
暂无活动,敬请期待...
相关课程
全部