暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

重磅发布!东方国信发布分布式图数据库CirroData-Graph,布局国产数据库细分领域

377

全文约1500字,阅读约6分钟


近日,东方国信发布了分布式图数据库CirroData-Graph,以满足包括深度关系探索、关联分析、路径搜索、特征抽取、数据聚类、社区检测、知识图谱等应用场景对图数据库的需求。CirroData-Graph基于开源项目HugeGraph研发,并在HugeGraph的基础上实现了分布式开发集成


较单机版图数据库来说CirroData-Graph提升了图计算性能的同时还完美地解决了单点故障所带来的高可用性问题。目前CirroData-Graph已经在实际生产环境中投入使用。


CirroData-Graph:功能完备的分布式图数据库

CirroData-Graph是基于开源项目HugeGraph研发的一套分布式图数据库,继承了HugeGraph的所有功能和特性,并进行了优化,使其提供更为友好的用户体验和便捷的运维方式。
  •  CirroData-Graph基于Apache TinkerPop3框架,支持Gremlin图查询语言;
  • 支持属性图,使顶点和边均可添加属性,支持丰富的属性类型;
  • 可对顶点和边属性建立索引,支持精确查询、范围查询和全文检索;
  • 支持多顶点ID策略,CirroData-Graph支持主键ID,支持自动生成ID,支持用户自定义字符串ID,支持用户自定义数字ID;
  • 支持功能丰富、简单易用的HTTP Restful接口。提供顶点、边、元数据等的基本操作接口;此外还提供各种高级查询接口,包括最短路径、多路径、交叉点、N步可达邻居等;
  • CirroData-Graph支持Java 语言客户端。
此外CirroData-Graph在图数据库周边生态上提供图形化的一键安装部署、集群监控、智能运维工具,让安装部署和运维完全实现图形化操作。

CirroData-Graph采用先进的分布式存储技术及Loader模式

不同于单机版原生HugeGraph数据库,CirroData-Graph实现了分布式存储,有效的解决了单点故障带来的宕机问题,实现了系统高可用。
同时,CirroData-Graph支持百亿以上的顶点和边的快速导入,并提供毫秒级别的关联关系查询。



CirroData-Graph采用Multi-raft-group逻辑分区技术,保证在批量插入数据时,每个节点都会工作。并且保证高可用,只要服务集群中超过半数节点正常工作,系统即可正常对外提供服务。

使用PD(Placement Driver,PD服务需要单独部署,主要负责整个集群的管理调度,Region ID生成等)集群来记录各Store中的region信息和状态,客户端访问时,通过PD获取region信息,然后向对应region的leader发起请求。

此外,为了提升分布式图数据库的数据加载性能,CirroData-Graph新增了Loader模式。在分布式系统中,需要保证数据的一致性,数据加载是一个主要的性能瓶颈。在普通模式下,数据经由API、计算引擎加载到一个节点的存储引擎中,再通过JRaft同步到其它两个节点中,效率低,加载慢。

引入Loader模式后,数据经由API、计算引擎先落地到RocksDB中,再将RocksDB的sst文件以异步任务的方式通过JRaft同步到所有节点,这样在保证了数据一致性的前提下,也让加载性能有质的提高。



从上图可以看出,在Loader模式下的数据加载性能可达单机版HugeGraph性能的70%左右,对于分布式系统来说这是一个非常不错的数字。之后我们还会继续完善Loader模式,达到在加载性能方面与HugeGraph持平的标准,此外通过扩大集群规模也可能使CirroData-Graph超越HugeGraph的加载性能。

在国产化生态适配方面,目前CirroData-Graph分布式图数据库已经与华为鲲鹏芯片完成了兼容性测试互认证,获得华为鲲鹏计算领域OpenLab授予的鲲鹏技术认证书。双方产品相互兼容,整体运行稳定,能够满足用户的性能需求。

在产品应用方面,CirroData-Graph已经成功与东方国信“数据魔方”产品实现了兼容适配,完全替换其底层neo4j图数据库,并与“数据魔方”一起在公安、电信、金融、工业等领域投入使用。

CirroData是北京东方国信科技股份有限公司自主研发的一款面向海量数据分析型应用领域的分布式云化数据库。采用了先进的计算和存储分离的技术架构,融合了分布式存储和MPP并行计算的各自优势,不但可以轻松实现云平台上的伸缩扩展能力,而且可以提供随需部署的能力,是新一代云数据仓库的典型代表。


CirroData能满足PB级海量数据的存储和分析,这些数据可以分布在数百台通用服务器上,能够被数千并发用户高速访问,可以满足数据密集型行业日益增大的海量数据存储、高性能加工,在线分析、即席查询和高并发访问的需求。

最后修改时间:2021-04-18 12:23:24
文章转载自东方国信大数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论