暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

图数据库测评:渊亭DataExa-Seraph PK 开源JanusGraph!

原创 小小亮 2020-07-01
1955

图数据库作为一种新的数据存储计算系统,提供了对关联数据最直接的表达,可以支持海量复杂数据关系运算,并有效地支持建模、探索和查询数据。基于图数据库,可以深入探索各种实体(组织,人员,交易)之间复杂的相互关系。

目前,图数据库在金融风控、国防建设、电子商务、智慧交通、生物序列研,医疗诊断决策、公共安全等领域都发挥着重要的作用。知名数据研究机构Gartner预测,到2022年,图分析处理和图数据库(DBMS)的应用将以每年100%的速度增长,从而不断加速数据准备、以实现更复杂和自适应的数据科学。

此次参与对比测评的是渊亭科技自主研发的分布式图数据库DataExa-Seraph,以及开源的分布式图数据库JanusGraph

image.png
渊亭DataExa-Seraph界面

01 综合测试结果

JanusGraph 作为一款开源的分布式图数据库系统,在性能和功能上都有不错的表现,并且在最新的 DB Engines 最新排名上也比较靠前。

DataExa-Seraph 作为一款分布式图数据库系统,在性能,安全能力,管理能力,高可用能力均有优异的表现。通过测试,DataExa-Seraph 在大数据加载能力、单机写入能力、图挖掘能力性能上完胜 JanusGraph:

  • 大数据加载能力:DataExa-Seraph 是 JanusGraph 8-20 倍
  • 单机写入能力:DataExa-Seraph 是 JanusGraph 的 10-20 倍
  • 图挖掘能力:进行了N维路径分析,DataExa-Seraph的平均返回速度结果是 JanusGraph 的 10-30 倍

除此之外,DataExa-Seraph 在幂律图(超图),并发性能,安全性能,高可用性上均经过了严苛的测试。

02 软件、硬件介绍

(1) 软件版本:

  • DataExa-Seraph 2.1
  • JanusGraph 0.3.2

(2) 硬件:

  • 本次测试均采用 Dell Power Edge R640 服务主机。
  • 虚拟机:Dell Power Edge R640 实例类型
  • 存储节点:(8个vCpu,128GB内存,200GB机械硬盘)*6
  • 计算节点:(8个vCpu,128GB内存,200GB机械硬盘)*6
  • 索引节点:(4vCPU,24GB,200GB机械硬盘)*5
  • 应用节点-查询节点: (24GB内存,50GB磁盘,4vCpu) *3
  • 应用节点-算法节点:(24GB内存,50GB磁盘,4vCpu) *1
  • 应用节点-计算节点:(24GB内存,50GB磁盘,4vCpu) *1
  • 应用节点-管理节点:(24GB内存,50GB磁盘,4vCpu) *1

(3) 数据集:

image.png
表1

03 测试过程

(1) 数据加载:

含加载的时间和速度、被加载数据的存储体积、增量条件下的加载三个测试项。

DataExa-Seraph 和 JanusGraph 都提供了两种方式进行数据加载,一是运行分布式任务加载(这种导入方式主要针对超大数据量,例如数亿、十亿、百亿甚至是千亿的数据量一次性加载场景下);二是运行单机程序进行数据加载(这种方式主要适用于百万级别的数据增量更新导入)。

基于此状况下,我们控制了其它相关变量,得出了如下表的测试性能结果:

  • 加载功能:

image.png
表2

  • 加载速度:

image.png
表3

image.png
表4

image.png
图表1

通过表2 和表3 的结果我们发现,DataExa-Seraph 和 JanusGraph 提供了几乎相同加载数据的功能或者工具,但是不同的是,DataExa-Seraph 无论是在分布式条件下加载数据 ,还是在单机的程序中增量添加数据的性能都是JanusGraph 的 10-20 倍的水平。

测试还发现,随着图实例中的顶点增多的过程中,JanusGraph 的分布式和单机增量加载速度是明显的下降的态势的,而 DataExa-Seraph 几乎不受这些因素的影响。

(2) 路径查询:

含遍历能力、N维路径遍历能力、幂律图(超图)三个测试项。

  • 遍历能力:

是指衡量图数据库在一定的时间内,能够遍历出的关系顶点的数据量,换句话说,如果遍历速度越快,那在对图数据中的图分析时,响应速度就越快。

image.png
表5

  • N维路径遍历能力:

N维路径分析在实际的运行中非常广泛,例如如何两个人员的关系网络是怎么样的,那通过N维路径挖掘就很容易得到,所以这是一个非常重要的衡量指标,我们单独拿出来进行测试对比。

image.png
表6

  • 幂律图:

在现实的的情况中,幂律图是经常会出现的,例如在微博中,我们所说的那些“大V”们的关系往往是数万或者上百万之多,在图数据库中这些问题也是比较难的问题。

我们根据实际的情况模拟了类似这种超图的情况,在此基础上我们测试了经过这些超节点时所花费的时间。在 Twitter2010 的数据基础上,我们造了一些符合幂律图的数据,例如,在 一条路径上构造同时拥有 1w 和 10w 关系的爆炸性关系的节点,来进行N维关系分析测试。测试结果如下:

image.png
表7

通过上面对实际运行中最关键的性能指标上,DataExa-Seraph 性能平均是JanusGraph 性能的 1-20倍。

(3) 系统并发:

并发测试是证明一个系统在面对多用户同时访问的处理能力。实际的情况中,图分析(主要指路径分析,子图分析)这些是相对比较耗时的,这样无形中就拖垮了系统整体的并发和响应能力。

DataExa-Seraph 通过架构调整,把图分析和查询,数据加载等这些功能抽离出来,形成独立的模块、独立的服务,同时加上多服务和负载均衡的调整,大大提升了系统的并发处理能力,下面是一些测试结果总结:

  • 测试形式 :

执行查询一个节点的详细结果作为返回结果。

  • 结论:

image.png
表8

除此之外还发现,通过监控对应的主机的网络IO 还发现,系统的并发还跟主机的网络数据交换速率有关,换句话说,主机与主机之间数据交换速率越高,系统处理并发的能力越强。

04 DataExa-Seraph

DataExa-Seraph是一个可伸缩、健壮、事务完备的企业级高性能分布式图数据库存储及管理平台,支持万亿级实时大数据分析和操作,在大规模数据量加载导入和高维关系分析方面实现了突破性创新,基于多租户的权限安全控制,具备高安全性、负载均衡、事务管理等特性,并且能够和现有成熟的大数据及人工智能生态圈无缝对接。

image.png
DataExa-Seraph功能指标

渊亭科技是国内最早从事认知智能相关技术研发与产品化落地的企业,作为渊亭科技认知中台(渊亭认知中台:认知智能全栈技术,一站式“KaaS”平台)的重要组成,DataExa-Seraph至今已经进行数次迭代,2015年渊亭科技推出图计算存储引擎V1.0版本,2018年1月进行计算和存储的产品分离,2019年发布了DataExa-Seraph V2.1图数据库。

目前,DataExa-Seraph已经应用于金融、公安政务、国防等领域,包括深度关系探索、关联分析、路径搜索、特征抽取、数据聚类、社区检测、 知识图谱等场景。

金融领域,可用于信用评级、反欺诈、反洗钱、智能推荐、智能问答等业务,在高性能关系查询、快速和复杂的分析、机器模型算法支持、高可用性和高并发等方面表现优异;

公安领域,可用于犯罪侦查、警务安保、网络安全等领域,可快速构建万亿级图谱、灵活搭建多个通用和专用公安模型、用于管理不断增长的对象类型和自然模型;

国防领域,可用于装备体系分析、作战指挥决策、情报分析等方面的应用,支持安全可控的知识建模、知识获取、知识融合、知识推理、知识赋能、安全控制等能力。

关于渊亭

DataExa渊亭科技成立于2014年,是领先的一站式认知智能平台与服务厂商,在认知计算、知识图谱、机器学习、数据挖掘等领域拥有核心技术优势与领先的工程化能力。渊亭聚焦金融、政务、国防、工业互联网四大行业,为客户提供认知中台、AI中台、数据中台三大中台产品与全栈AI+行业解决方案。以“连接万物、全景计算、认知推理、深度赋能”为企业使命。目前已服务了中国人民银行、建设银行、广发证券、军委科技委、战略支援部队等知名企业与政府机关。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论