暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

浅析 | 一文看懂图数据库和图计算的区别

蜀天梦图 2023-03-30
810

点击蓝字关注我们


导读:图计算是一类常见的计算模型,关注客观事物间关系的分析和计算;而图数据库是一项数据的计算和存储技术,关注“特定结构数据”的完整规划、计算、存储。


本文就图计算的价值、图数据库技术的发展、图计算和图数据库的区别进行了详细地介绍,希望对您对图技术以及技术选型有所帮助。


图计算 数据库发展的驱动力


如今,随着5G、物联网、人工智能等数字化技术的快速发展,数据已经渗透到每一个行业和业务职能领域。数据即是对世界的描述,世界连接无处不在,数据也越来越相互关联。尤其近年来,全球大数据进入加速发展时期,数据量呈现爆发式增长,数据之间的关联复杂度也随之激增,复杂数据背后的潜在关系价值同样备受关注。


同时,随着社会及商业节奏的加快,大家对大数据处理的速度和时效要求也越来越高,而传统数据库技术又无法满足复杂关联数据的实时查询、计算需求,此时图计算、图数据库等概念逐渐走进大众视野,受到更多行业用户的青睐,助力各行业基于这些数据做出迅速并准确的商业决策。


“图概念”梳理


但对于广大刚刚接触“图数据技术”的用户而言,经常容易混淆图计算和图数据库的概念。


本质上来讲,图计算以图论为理论基础,基于图数据作分析和计算;而图数据库同样以图论为基础,采用图模型进行图数据存储。首先,我们先理清楚这些“图概念”,这样会帮助读者更快了解这两项技术。


图概念名称

解释

图论

图论起源于欧拉对哥尼斯堡七桥问题的研究。七桥问题是指如何能够不走重复路的情况下走遍哥尼斯堡的七座桥,其实就是现今大家熟知的一笔画的问题。欧拉最终将七桥问题形式化为点边的一笔画问题来解决,这种简洁的点边建模思路为后世的学者沿用发展,也就形成了如今的图论体系。

图数据

图数据通过点和边的形式进行表示,边是由点与点之间进行连接构造。图数据擅长将各类数据关联起来,将不同来源、不同类型的数据融合到同一个图里进行分析,得到原本独立分析难以发现的结果。

图计算

图计算指代一切基于图数据的分析和计算。图计算的目标就是从图结构中挖掘出有价值的知识或规律,包括事件溯源、因果关系等。

图数据库

图数据库是一种经过优化的用于存储、查询和更新图数据的数据库管理系统,支持图数据的增、删、查、改(CRUD),支持事务,以此保证并发操作下的正常运作。

图模型

主流的图模型有3种,分别是属性图、RDF和超图。其中属性图模型目前被图数据库业界广泛采用,本文讨论的皆是以属性图为数据模型进行研究讨论。.


图计算的应用价值


1

图计算到底是什么

计算的本质或许并不像你想的那么复杂,就是一些简单到不能再简单的事物的组合就能迸发出强大的力量。而图计算正是将多源多类型的融合到同一个图里,组合为一种全新的图数据结构,并以“关系”的角度入手,推理事物中的隐藏关系。


2

图计算是如何发展起来的

早期图计算问题规模相对较小,尚未有专门针对大型图计算的系统出现。这一阶段主要的解决方案包括:①单机图算法库,如Boost的BGL、StandfordGraphBase等;②通用分布式计算平台,如MapReduce 等;③并行图计算库,如PBG;④针对具体问题定制架构等。但这些解决方案在数据规模、性能、易用性、容错性等方面尚有许多不足之处。


2010年,Google提出了基于BSP模型的Pregel分布式图计算系统,与之前方案相比在编程模型、同步控制等方面提供了更优的解决方案。


之后卡内基梅隆大学Select实验室提出了基于GAS模型的GraphLab系统,二者为后续其他图计算系统设计带来了深远的影响。


随着数据量级迅速增长,应用市场逐渐打开。2015年前,这一阶段的图计算市场依然以海外厂商为主。直至2016年左右,中国图计算领域学术界和产业界研究开始逐渐发力,发布了多项自己的图计算系统和平台。


3

图计算发展前景

图计算是人工智能的一个使能技术。我们可以大致将人工智能的基本能力分成三个部分,第一部分就是理解的能力,第二部分是推理的能力,第三部分就是学习的能力,简称URL(Understanding Reasoning Learning)。而图计算是与URL息息相关的,举例来说,要对整个现实世界有一个客观、完整、全面的认识,那就需要一个理解的能力。图计算技术能够把任何事物之间的所有关系全部刻画出来,完整地描述出来。图计算被业界视为下一代人工智能的重要基石,它是人工智能从数据驱动的感知智能向认知智能转变理解语义关联的关键。


图数据库技术的发展



不同于关系型数据库,图数据库以事物的连接方式为中心,强调数据之间的关联关系,将数据间的联系视为和数据本身同等重要。


图数据库发展有着非常长的历史。最早可追溯到20世纪60年代面向树状结构的数据库,如IBM的IMS;20世纪70-80年代出现面向属性图的模型和技术,如LDM(逻辑数据模型),ERDiagram等。由于当时的硬件的性能无法支持复杂的查询需求,没有大范围的推广使用。

到了2000年代,随着互联网时代大量关联数据的产生、RDF资源描述框架在网络交换资源中的普遍应用、以及具备ACID事务保证的图数据库的出现,让图数据再次回到了历史舞台中央。


2002-2010年,图数据库的使用开始兴起。这个阶段的图数据库采用小规模原生图存储,与传统数据库相比,原生图数据库遍历查询时无需索引,能够极大减少系统开销、提升查询效率。


2010-2016年,随着大数据时代的到来和物联网行业的蓬勃发展,数据本身的丰富程度增加,数据之间的关联性增多,扩展性成为数据库行业共同的痛点。


2017年开始,为了满足大数据量级下的查询返回效率,在快速变化的商业环境下提供实时的商业智能,同前几代产品相比,这一代图数据库为图数据实时更新、查询而设计,不但在存储上提升了扩展性,同时增加了并行计算的能力,能够实现实时的图分析。



从2020年开始,图数据库开始出现和知识图谱平台、人工智能平台融合的趋势,出现了与人工智能、机器学习、深度学习融合的图平台。这也是下一代图数据库的发展趋势。


图计算和图数据库的实质性区别


图计算通常面向复杂度更高的任务,需要对整个图进行反复的访问来完成计算;而图数据库,无论是更新还是分析,通常都只涉及一部分子图的数据,且单个任务一般只需访问一遍即可。


图计算通常采用不可变的数据布局,使得读取效率可以最大化,但是需要更精细地安排和组织并行的处理过程;图数据库则不得不选择读/写性能更均衡的存储方式来管理数据,并从并发控制、访问接口等众多角度尽可能地减少系统设计和实现引入的开销。


更直观的对比可见下表:


_

图数据库

图计算系统

应用类型

侧重OLTP(联机事务处理)

侧重OLAP(联机分析处理)

主要解决问题

侧重图数据存储和查询,实现增删查改等动态数据操作

侧重通过算法实现图数据分析和学习,更关注静态数据

主要面向场景

对局部子图进行并发操作

对全图进行迭代计算






文章转载自蜀天梦图,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论