暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

2022年中国数据库行业年度分析报告:图数据库

原创 创邻科技 2023-02-23
1928

一、背景

图数据库是一种使用图结构对数据进行查询和存储的数据库。目前,主流工业级图数据库是以属性图形式存储图数据。属性图的图结构由点、连接点的边以及点和边所拥有的属性构成。使用图结构可以更加灵活地对客观世界数据进行建模。图结构中的点可以用于关联客观世界的实体,客观实体属性就可以作为点的属性;图结构中的边可以用于表征客观世界实体之间的各类关系,客观关系的属性则可以作为边的属性。为应对数据快速增长对图数据库查询和存储性能上带来的挑战,主流图数据库都是基于分布式架构设计实现的。

根据多家行业研究机构的历史数据和分析,图数据库的受关注程度和热度基本呈现上升趋势,图数据库技术的发展也正在经历去泡沫化并向健康发展的阶段过渡。国内外众多行业也在陆续布局图数据库的应用,并且在未来几年内,图数据库技术还会吸引更多企业、公司进行业务应用方面的投入。

在国内,图数据库发展势头迅猛,主要受到几个方面的影响。首先,国家持续推动各行业、领域进行数字化转型,并且大力推动、支持技术领域自主创新,从而摆脱国外技术“卡脖子”的困境。国家的政策强有力地激发国内企业对于图数据库这项新兴技术的投资和研发,并不断激发各个行业、领域对于图数据库技术的应用探索;其次,图数据库作为一项新兴的数据存储管理系统,因为其灵活的建模能力和优异的关联关系查询性能,尤其是在诸如政府、金融、通信、推荐、社交等对海量数据分析需求旺盛的行业或领域受到了较高的关注和应用,极大地推动了图数据库技术在国内的认知和应用程度。

在国际环境不稳定的大环境下,图数据库厂商也在积极响应国家自主创新的号召,不断深耕领域技术,持续突破技术难关,为自研技术打好稳固的地基。星环科技结合自身大数据技术储备,通过自主研发,不断打造优质产品,为用户提供优质服务。StellarDB图数据库作为其大数据平台生态中的一个重要组成部分,同其大数据平台一同适配多种国产软硬件,加强技术自主可控能力。

政府机构、金融行业、通信行业、交通行业等若干类行业中,部分业务呈现出数据量增速快、增量大的特点,并且这些行业还具有基础数据量大的特点,因此也对图数据库存储能力提出了更高的要求。比如在星环科技的StellarDB图数据库某落地案例中,该客户实际存储已经达超万亿点边数据量。

图数据库不仅是图数据存储的仓库,还要提供完备图查询能力的系统。工业级图数据库需要处理不同数据量场景下不同规模数据查询的业务请求,因此需要快速处理简单或短查询,以及及时响应复杂或长查询的能力。这些能力可以赋能于诸如股权穿透分析、深度关联关系分析等场景。比如星环科技的StellarDB图数据库除了具备支持大规模并行处理,毫秒级的查询响应能力,而且在其某客户现场环境下支持12层深度关联关系查询的秒级响应。

工业级图数据库不仅通过优化复杂数据操作的性能、提供优质内置图算法等形式提升其在大规模图数据集计算、分析能力,还通过支持数据的实时增删改查、事务等能力提升其在交易型处理场景中的能力。这些能力的提升,可以为客户提供更加友好的开发、应用平台。星环科技StellarDB图数据库也在其上半年发布的4.0版本中,提升了其分布式图查询能力和实时数据操作能力,从而提升了该产品在HTAP场景的表现。

二、图数据库简介

图数据库是非关系型数据库的一种,采用图这种数据结构来进行数据存储,将世界万物的实体映射为图上的点,关系映射成图上的边。图表达力极强且非常简洁,图在表达事物关系上相比传统关系型数据库有千倍性能提升。此外,随着信息化、数字化建设的不断深入,当前数据呈现爆炸式增长,数据之间的关联关系越来越重要,对数据进行关联分析将挖掘出巨大的数据价值。

图数据库的应用场景非常多,而知识图谱是最为基础的底层应用场景,知识图谱在数据组织形式上和图数据库天然契合,能够充分利用图模型在存储和查询的优势为多行业提供知识服务。

三、图数据库模型

图数据库按照数据模型划分主流的图数据库可以分为RDF图数据库和属性图图数据库。RDF图数据库表达方式非常简洁、具有极强的灵活性和可扩展性、并且采用W3C定义的OWL和SPARQL国际标准体系来进行知识表示和查询,非常适合知识图谱的应用以及知识推理的场景,代表RDF图数据库有Virtuoso、gStore、Jena等。属性图数据库对知识表示更加直观且更接近RDB,非常适合大图分析等场景,代表属性图图数据库有Neo4j、Tigergraph等。

图数据库按照底层存储模式可分为原生和非原生两种产品。原生图数据库是专门针对图存储进行了底层设计和优化,支持高效的图分析算法和查询,常用的底层数据结构为链表、B+树、LSM树等来存储图数据,代表图数据库有Neo4j、Tigergraph、gStore。非原生大部分依赖关系型数据库等数据库来存储数据,然后用存储引擎将数据以图数据的逻辑进行管理,代表图数据库有Titan、JanusGraph。

四、图数据库发展状况

IMG_256

图1:图应用成熟度发展图

图数据库以图论为理论基础,使用图模型,将关联数据的实体作为顶点存储,关系作为边存储,解决数据复杂关联查询问题。赋能各行业从数据资源到数据资产的价值转化。业务驱动技术,技术带动业务,所以本章节从业务和技术两个角度说明图数据库的发展状况。

从业务角度,最开始的时候图的应用主要集中在参考数据领域,比如说知识图谱、产品图谱等各种各样的知识图谱。这种基于一些事实关系的数据是非常典型的相对静态数据,数据量较小,随着业务的发展,业务需要增加基于交易数据的维度进行分析,交易数据的数据量比较大,且动态增加,所以这个时候对图数据库的数据处理能力、横向扩展能力的要求也会越来越高;再往后,更加成熟的图应用就不仅局限在静态的关系数据和交易数据,还会增加各种各样的事件和行为数据的分析,事件和行为数据的增长量是井喷式的,通常会形成TB级、PB级的海量数据。在图应用成熟度这个发展历程中,先是管理企业的或者说是我们自身的核心数据,变成进行交易数据分析,最后升级为进行事件和行为的分析,随着这样的图应用的成熟度发展,对底层的图数据库技术的要求也是在逐步发展的。

从技术角度,图数据库发展至今可分为三个阶段:第一个阶段是在2007年左右,该阶段的特点是部署简单且底层原生存储,原生图存储指同时满足原生图存储(native graph storage)和原生图处理(native graph processing)两个要素,即使用专门适用于图数据库的存储结构,底层存储就是以免索引邻接的数据结构存储,在存储层实现免索引邻接,不依赖于第三方的存储组件,如Neo4j。随着2013年左右,大数据时代的到来,渐渐的就无法承载大量的数据了,因此graph2.0时代应运而生,该时代以分布式图数据库为代表,使用非原生图存储,即底层使用非图的存储结构,在处理层近似实现免索引邻接,依赖于第三方的存储组件,如RocksDB、HBASE等。该阶段的图数据库扩展性好,但因为非原生的架构导致查询性能,尤其是深链查询性能不高。且该阶段产品的图计算主要依赖于第三方开源计算引擎,如Spark GraphX,图数据库本身不能提供图计算能力,在计算的时候需要通过ETL将全量数据加载到内存中,在内存中模拟图结构进行计算,当底层数据发生变化时,需要重新通过ETL加载全量数据到内存,这种架构导致产品使用的局限性,只适用于T+1的离线分析场景,无法满足业务对实时计算的要求,如JanusGraph。第三代图数据库采用分布式+原生的架构,兼顾第一代图数据库的原生架构和第二代图数据库的分布式架构。即满足业务的快速的查询能力,又兼顾水平扩展能力,同时能够智能化地辅助商业决策,如Galaxybase、Tigergraph。

国际主流图数据库以开源为主,开源比例占到60%以上,但是也随着商业化进展的不断深入,各大开源厂商也逐渐将图数据库完全开源变为内核模块开源,更多功能需付费使用。

图数据库厂商主要由行业垂直厂商、高校产学研团队、传统数据库厂商、互联网大厂组成。行业垂直厂商专注于图数据库的研发以及图数据库在知识图谱领域的应用实践,例如Neo4j、Tigergraph、Nebula、Galaxybase等;高校产学研团队主要是从学术界出发,从理论到产品落地,然后逐渐开展商业化应用,例如gStore、PandaDB等;传统数据库厂商关注到图数据库的发展趋势,不断弥补自己在图数据库方面的能力,例如Oracle Graph、IBM Graph以及达梦(蜀天梦图);互联网大厂由于内部业务的需要也组建了专门的图数据库团队,并且逐步由内部能力提供向外部赋能,例如Twitter Flock DB、Facebook TAO、阿里GDB、百度HugeGraph。

图数据库面向知识图谱的应用在各个行业均有结合点,但是受限于不同行业的信息化建设阶段不同,目前主流的应用行业在金融、公安,市场占比近40%。随着政务行业、医疗、电网等能源行业的信息化建设不断推进,其知识图谱应用也在逐步加深,而且政策方面对政务大数据利好,将进一步深化政务行业的知识图谱应用。主要的应用形式分为两个,一个是构建专家知识图谱,将专家知识沉淀下来,然后对于数据进行分析和匹配,得到相应的分析结果,该类知识图谱存储的数据量较少,主要应用在交通、制造业等领域;一个是存储真实数据的行业知识图谱,通过行业内的多源异构数据构建知识图谱,然后在该知识图谱中进行查询、关联分析得到结果,该类知识图谱存储数据量较大,主要应用在金融、公安等领域。

五、测试标准

图数据库是未来数据管理的发展趋势之一,通过图数据库测试来评估图数据库能力至关重要。现如今,图数据库测试方案多种多样,但存在各种弊端。所以需要一个权威、真实、公平的图基准测试。关联数据基准委员会(LDBC,Linked Data Benchmark Council)是由Oracle、亚马逊、Intel、蚂蚁金服等软硬件巨头,Neo4j、TigerGraph、创邻科技、海致星图、Ultipa、TuGraph(阿里,原费马)等国内外主流图数据库厂商,伦敦大学、爱丁堡大学、希腊研究与技术基金会等国际知名学术组织等组成的非赢利机构,是全球图数据库领域唯一的第三方、非赢利、权威测试标准制定与发布机构,在行业内有着很高的影响力。

LDBC提供了公平、公正、公开的图基准测试标准,LDBC图基准测试以图模式查询中常见的瓶颈点(Chock Points)出发,从聚合、连接方式、数据访问方式、表达式计算、子查询优化、并行化、图特征计算、更新操作八项维度出发,基于相同的标准、相同的数据集、相同的测试工具,全面考察图数据库的性能、高可用、并发等能力。

(1)LDBC对图模式查询的瓶颈点设计

  • 聚合:包括排序、并行排序、TopK排序等,比如追踪资金流向业务中,找出最近10次转账;
  • 连接方式:包括深度优先遍历(Depth First Search)、广度优先遍历(Breadth First Search)的图遍历方式,比如追踪资金流向业务中,找出5跳内的转账链路;
  • 数据访问方式:包括随机查询的能力,比如根据id查找顶点,根据顶点找到邻居,获取邻居的属性信息;
  • 表达式计算:包括公共子表达式复用的能力,比如统计杭州一天的交易总量;
  • 子查询优化:包括一个查询内相同或相反的计算,合并到一个子查询的能力、不同查询间,复用子查询结果的能力、一个查询内复用子查询的能力;
  • 并行化:包括在大量查询的情况下,使用缓存子查询的能力;
  • 图特征计算:包括基于图遍历重用之前找过的路径的优化能力、基于查询两点间路径的优化能力、基于查询两点间不带权最短路径的优化能力、多个图查询组合查询的能力等;
  • 更新操作:包括对顶点、边以及属性的增删改查操作。

(2)LDBC图基准测试内容

LDBC图基准测试主要包含三大类,总共29项测试,通过这29项测试,考察图数据库产品是否有能力解决常见的图模式查询瓶颈点。

  • 交互式插入更新II(Interactive insert updates) 8项
  • 交互式简单查询IS(Interactive short reads) 7项
  • 交互式复杂查询IC(Interactive complex reads) 14项

(3)LDBC图基准测试方式

LDBC SNB 提供了标准的测试工具,相当于黑盒测试工具,测试方无需自己实现测试工具的逻辑,确保测试方式一致。

如下图LDBC图基准测试流程所示,黄色是测试者需要准备的内容:即查询语言,适配工具和测试的图数据库产品,LDBC的官方会提供数据生成器与测试驱动的工具,包含了数据生成、样本生成、正确性验证、性能测试的功能,在整个测试过程中,LDBC审计员会全程审计测试过程,严格记录每一个过程的日志和结果并公开,是一套非常完善的基准测试流程。

IMG_257

图2:LDBC图基准测试流程

六、发展前景

图数据库及其在知识图谱行业的应用整体来看还处于市场爆发前期,但是其关注度无论是学术界还是产业界都在逐年增加,DB-Engines中数据库流行度排行榜中图数据库一骑绝尘,保持高速增长。在学术界图相关的关注度明显增长。

企业微信截图_20230117133847

图3:DB-Engines各模型数据库流行度趋势变化图

IMG_257

图4:主流图数据库论文数趋势图

图数据库及知识图谱行业的发展目前还是以行业结合应用为主,但是存在着图数据库及知识图谱应用厂商对行业理解不深,而行业专家对图数据库和知识图谱技术了解不够,导致了应用结合点的分裂,还需要图数据库和知识图谱技术的不断深入普及和市场导入。

七、技术趋势

(1)趋势一:图HTAP技术

HTAP是能同时处理OLTP和OLAP两种业务的混合处理系统,以打破OLTP和OLAP之间的隔阂,既可以应用于事务型数据库场景,也可用于分析性数据库场景。基于创新的计算存储框架,在同一份数据上保证事务的同时支持实时分析,省去了费时的 ETL 过程。

在图数据库中,OLTP指对顶点、边以及属性的增删改查。主要评价指标为:吞吐量、响应时间;OLAP分为两种,第一种是全图的算法,使用全量数据进行图运算,比如Louvain、PageRank等。衡量指标为图算法的丰富性、易用性。第二种是局部算法,使用部分子图数据完成运算,比如最短路径、K跳查询等。衡量指标为吞吐量、响应时间。HTAP指综合OLTP和OLAP的第二种情况。

如下图所示,用户端发起请求,通过消息中间件转化成流的形式进入系统。图平台解析请求中的数据,将数据对应的操作(CURD)实时应用到图数据库中。然后就可以调用对应的图计算代码段,对刚刚处理的这条数据进行相关的计算操作(以新插入或更新的点为出发点、一定深度的邻居节点)。计算完成后的结果,可以实时写入到各个点边类型的属性中去,也可以选择一部分作为算法调用的结果返回给客户端。实时写入到各个点边类中的属性,是立刻查询可见的,可以在前端界面等查询结果的地方展示,也可以被实时的用到后续请求的相关计算中来。

IMG_258

图5:图数据库数据处理过程

(2)趋势二:Graph+AI技术

图数据库会与人工智能进一步融合成为未来人类智慧的“新基建”。梅特卡夫定律表明,网络价值取决于网络中可以建立的连接的数量。同理,数据要发挥它的最大价值,一定要打通数据间的连通性。图数据库作为高效联通孤立数据点的技术,是引爆数据价值的关键要素。认知的基础是知识,而创新的来源是跨知识点之间的连接。可以想象,随着区块链等技术的发展、数据确权及相关政策法规的成熟,未来图数据库发挥价值的一种形态是通过技术与数据结合将庞大知识图谱及基于它的认知计算能力作为基础设施服务提供给多方调用和查询,又通过多方的使用反馈进一步完善系统本身。在未来的商业中,知识也会像今天的水电煤一样随用随取,用户无需再关心底层到底是哪一种数据库,用的是什么计算引擎,只需专注于查询和调用自己需要的知识并将知识推理的结果运用于当前的业务场景创造商业价值就好。

图和图数据库技术管理关联数据并定义关系,通过应用领域相关知识增强AI的性能,图技术提供了一种有效的技术手段来实现复杂AI应用程序的开发。至少在四个主要区域,图可以为AI提供领域相关知识:

首先是知识图谱,它为决策支持提供领域相关知识/上下文(例如智能问答)并且帮助明确答案适合于该特定情况(例如在多雨驾驶条件下的自动车辆)。

其次,图提供更高的处理效率,因此借助图来优化模型并加速学习过程,可以有效的增强机器学习效率。

第三种,基于数据关系的特征提取分析可以识别数据中最具预测性的元素,基于数据中发现的强特征所建立的预测模型拥有更高的准确性。

第四种,图提供了一种为AI决策提供透明度的方法,这使得通过AI得到的结论更加具有可解释性。

(3)趋势三:图+联邦学习技术

图神经网络(Graph Neural Network)相比于传统的机器学习算法,在复杂图结构数据上有着不可比拟的优势。图神经网络能够更好的提取数据之间的特征,如药物发现、社交网络、推荐系统和交通建模等,近些年来图神经网络技术正在如火如荼的发展。而数据作为机器学习的“燃料”,数据的好坏、数据量的大小直接决定机器学习的训练效果。而数据的获取存在诸多的困难,一方面企业难以获得模型训练所需要的大量数据,另一方面,因为用户隐私、法律限制、商业竞争等问题,造成数据流通困难,“数据孤岛”现象普遍存在,所以催生出图联邦学习这一项技术,旨在保证用户隐私和公司数据的前提下,更好的发挥数据作为机器学习“燃料”的重要作用,图联邦技术作为两者的交叉学科,未来存在广泛的应用前景,通过图神经网络和联邦学习相结合,更好的推动社会生产力的发展和保障人民财产安全,任重而道远。

但目前图数据库在机器学习领域还没有被广泛采用,主要有如下原因:

一是目前的文献中,缺乏对各种图联邦设置和任务的统一表述,使得专注于基于SGD(随机梯度下降)的联合优化算法的研究员难以理解图+联邦学习技术的基本挑战。

二是现有的联邦库并不支持不同的数据集和学习任务以衡量不同的模型和训练算法,鉴于图数据的复杂性,在联邦学习环境下训练图神经网络的动态与训练视觉或语言模型有较大差异。

三是面向模拟的联合训练系统对于跨语境的大规模私有图数据集的联合图神经网络研究来说是低效的、不安全的。

未来应该设计一个联邦学习系统和图神经网络基准,包括开放的数据集、基线实现、可编程的API等,都集成在一个大的系统中,供研究人员探索图+联邦学习交叉的重要问题。系统应支持更多的图数据集和图神经网络以适应不同的应用,可能的应用包括但不限于传感器网络和时空预测,不断的优化迭代系统,进一步加快大型图的训练速度;设计先进的图联邦算法,提高数据集上的准确性,解决图联邦下的安全和隐私挑战;组织数据竞赛、建立合作生态、人才培养等。

(4)趋势四:图数据库处理时序数据技术

未来图数据库的发展,将出现具备时序数据处理能力的图数据库。5G 以及 IoT 的兴起催生了大量的时序数据,这些数据蕴藏着丰富的人、设备、车辆等的流动变化的关联数据。要基于这些流动变化的关联数据作出实时精准的商业决策,就需要底层的数据存储与计算能力的支撑。传统的流式大数据处理技术框架虽然可以进行实时数据处理,但缺乏针对图数据的关联分析能力,无法对图处理任务进行语义解析,也无法执行多层查询等图计算。现有的图计算框架虽然具备以内存存储图数据进行图表达能力,但仅能执行预定义的图任务,不知此动态追溯查询,无法基于指定时间窗口下的历史数据进行图处理,灵活性较低。图计算引擎可以对图结构进行查询,但这些图查询不具备原生的时序分析能力,需要进行原始数据的遍历搜索运算,时空开销大,且缺乏高性能支持。

时序数据一般具备以下3个特点:一是抵达的数据几乎总是作为新数据被记录;二是数据通常按照时间顺序抵达;三是时间是一个主坐标轴(即可以是一个规则的时间间隔,也可以是不规则的)。

时间序列数据累计速度非常快(比如一辆物联网汽车每小时能收集25GB数据。)常规的数据库在设计之初并非处理这种规模的数据,关系型数据库处理大数据集的效果非常糟糕。图数据库目前虽然可以很好的处理大规模数据集,但是仍然需要借鉴时序数据库技术,提升处理大规模数据集的性能,包括更高的入库性能、更高的容纳率、更快的大规模查询以及更好的数据压缩。

未来图数据库需要能够更好的支持空间、时间维度的数据查询和处理。具备时空高效的大规模时序图构建、任意时间窗口的图数据动态追溯查询、基于分布式计算的算法查询、支持原生时序语义表达的图查询语言设计。

(5)趋势五: 大规模图数据的分布式管理系统

随着社交网络、知识图谱等领域研究的发展,越来越多的图数据被发布了出来。比如,在社交网络中,美国Meta(原Facebook)公司在全球拥有超过约29亿活跃用户,这些用户可相互关联与通信,并形成大规模图结构社交网络;德国的莱比锡大学和柏林自由大学合作从维基百科上抽取结构化数据形成的知识图谱DBpedia已将近有24亿。

针对上述大规模的图数据集,如何有效地进行分布式管理就成为了一个重要问题。为此,学术界和工业界当前已经构建了不少高效的分布式图数据管理系统。这些图数据的分布式数据管理系统可以分为两类:基于大数据处理平台的分布式管理系统和自定义的分布式图数据管理系统。

  • 基于大数据处理平台的分布式图数据管理系统

基于大数据处理平台的分布式图数据管理系统利用现有大数据处理平台进行图数据分布式存储。典型的大数据处理平台包括Hadoop、Spark等等。这一类方法因为使用了已有大数据处理平台,所以有很好的可扩展性、容错性,也能更好结合已有的大数据生态。但是现有大数据处理平台整体读写性能先对于单机硬盘还是低很多,所以这些基于大数据处理平台的系统的查询性能都相对比较低。

典型基于大数据处理平台的分布式图数据管理系统有JanusGraph、GraphScope、DP2RPQ等。其中,JanusGraph是一个常用的图数据管理系统。它的存储系统可以建立在Cassandra、HBase、BerkelyDB等多种存储系统上,同时支持适配Elasticsearch、Solr、Lucene等多个索引技术。因为支持基于多种大数据处理平台的存储系统,JanusGraph可以和大数据生态结合的非常好,也支持和Spark结合做一些大型的图计算。GraphScope是阿里公司开发的一个开源图计算引擎,可以支持交互式查询引擎、图分析引擎FLASH、图学习引擎。在数据交换与存储层,GraphScope采用分布式内存数据管理系统Vineyard,用以支持管理数据的分区、元数据等以及为上层应用提供本机零拷贝的数据读取。天津大学团队基于分布式图计算系统GraphX开发了分布式RDF图数据管理系统DP2RPQ。DP2RPQ支持基于GraphX来处理正则路径查询。

  • 自定义的分布式图数据管理系统

另一类分布式图数据管理系统是基于分布式环境中各个机器自身的文件系统来设计实现分布式图数据存储。这类系统首先将图数据划分成多个子图,然后这些子图分布到不同机器上进行管理。所以它们性能往往能做到比基于大数据处理平台的分布式图数据管理系统高。但是它们的可扩展、容错也要自己实现,所以这些方面往往不及基于大数据处理平台的分布式图数据管理系统。

典型自定义的分布式图数据管理系统有Neo4j的分布式版本、TigerGraph、gStore的分布式版本、GSmart等。Neo4j是目前最流行的图数据库系统。它目前的分布式版本就是在其基于各个机器自身文件系统的单机版基础上开发的。Neo4j分布式版本包含Core Servers和Read Replicas两类计算节点。Core Servers主要负责写数据,并通过raft协议提供事务保证;而Read Replicas只负责读数据,分担集群读负载压力。TigerGraph也是一个著名的图数据库系统。其的分布式版本将大图按照顶点进行一致性hash切分成若干分片,然后将边与其起点存储在同一个计算节点。然后,每个计算节点只负责存储一个分片的一个副本,并支持其上的图存储和图处理。基于国产自主可控的单机RDF图数据管理系统gStore,湖南大学和北京大学研发了相应的分布式版本。该研究主要讨论了如何通过设计良好的图数据划分策略来减少查询处理时间。该研究提出了一种新的图数据划分方法——最小属性划分,来降低图数据划分过程中跨多个子图的边上的属性数量。这样划分的子图分布到不同机器上之后,如果一个查询不涉及跨子图边上的属性,那么这个查询就可以避免跨机器通信,进而实现降低通信代价。GSmart是国家超级计算长沙中心基于 CPU+GPU 的异构融合并行计算体系结构所设计的分布式RDF图数据管理系统。GSmart将所有RDF图数据上的查询操作都转化成了稀疏矩阵运算,然后利用GPU来优化这些稀疏矩阵运算。

(6)趋势六:查询语言统一

目前,图数据库市场查询语言不一,包括Gremlin、Cypher、SPARQL等,也有使用自己开发定义的查询语言。用户在业务中使用图数据库时学习成本高,对图数据库产品的推广带来一定的阻碍。同时,国际上ISO/IEC的GQL制定耗时4年,与当前图数据库市场的发展速度严重不匹配。如何解决这一问题已是厂商与用户共同关注的问题。

(7)趋势七:图数据库与图处理引擎融合

现今非原生图数据库只能提供较简单的图查询进行实时查询,不能独立完成复杂的全图迭代计算,需要与图处理引擎结合,增加了额外的处理过程,加重了系统负担。当前,分布式图数据库支持了更大规模的数据,同时通过优化保证了查询的高性能,未来与图处理引擎深度融合从而为用户提供更简单、更复杂的计算能力是图数据库厂商的研发方向。

(8)趋势八:无代码/低代码的平台

为了进一步降低图数据库的使用门槛,方便具有各种背景的图数据库使用者使用图数据库,图数据库厂商也都在提升其产品使用的友好程度。例如通过为图数据库可视化工具提供诸如自定义查询一键执行、可视化查询语句配置等功能。

八、面临挑战

图数据库技术面临的挑战依然很多。上文提及的诸多需求和发展趋势,也同样为图数据库技术提出了诸多挑战,除此之外,浅谈以下几点:

(1)动态图。图数据的更新可能是实时的、涉及大数据量的,诸多实时性场景对新增数据参与计算分析的结果有较高的实效性要求,这是其中一个挑战。

(2)超级节点。尽管超级节点的处理方案有很多种,但其任然是图查询、图计算中不可回避的问题。

(3)超大规模图数据可视化。在图数据库使用过程中,可视化工具担任了图数据分析探索的重要角色,对于超大规模图数据进行合适的可视化,也是未来图数据库需要应对的挑战之一。

最后修改时间:2023-07-21 17:48:13
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论