本文将为您简要介绍北京大学gStore大规模数据库管理系统

gStore大规模图数据库管理系统是北京大学王选计算机研究所邹磊教授研究团队自主研发的具有完全自主知识产权的开源图数据库系统。
近年来随着“人工智能”概念再度活跃,除了“深度学习”这个炙手可热的名词以外,“知识图谱”无疑也是研究者、工业界和投资人心目中的又一颗“银弹”。随着知识图谱和图数据库领域的飞速发展,知识图谱的数据管理暴露出来的的一个核心问题是如何有效地存储RDF数据集和快速回答SPARQL查询。
北京大学王选所数据管理实验室借此出发点成功研发了gStore—面向RDF知识图谱的开源图数据库系统(通常称为Triple Store)。不同于传统基于关系数据库的知识图谱数据管理方法,gStore原生基于图数据模型(Native Graph Model),维持了原始RDF知识图谱的图结构;其数据模型是有标签、有向的多边图,每个顶点对应着一个主体或客体。我们将面向RDF的SPARQL查询,转换为面向RDF图的子图匹配查询,利用我们所提出的基于图结构的索引(VS-tree)来加速查询的性能。
01 从图数据库角度存储和检索RDF知识图谱数据:gStore从图数据库角度存储和检索RDF知识图谱数据。
02 支持复杂的SPARQL查询及有效的增删改操作:gStore支持W3C定义的SPARQL 1.1标准,包括含有Union、OPTIONAL、FILTER和聚集函数的查询;支持有效的增删改操作。
03 支持海量三元组规模的RDF知识图谱的数据管理任务:gStore单机可以支持5Billion(五十亿)三元组规模的RDF知识图谱的数据管理任务。分布式版本支持百亿边规模的分布式可扩展的部署模式。
大量的基准知识图谱数据的评测结果和第三方的评测报告显示gStore系统在图谱数据量大、查询复杂等环境下其性能要明显优于现有的工业图数据库系统。该项目发表了数据库领域国际顶级期刊和会议论文(包括SIGMOD,VLDB)等30余篇,被国内外学术同行引用超过2000次,前期理论研究成果获得教育部自然科学二等奖(获奖项目名称:“大规模图结构数据管理”)。
源头创新:学术界首次提出以子图匹配方法构建知识图谱存储查询引擎; gStore系统核心发表3篇数据库领域顶级论文(SIGMOD,VLDB,VLDB J),单篇最高引用率超过200次;
自主可控:8年潜心研发,受国家重点研发计划资助,系统10万行代码均为自主编写,拥有从“论文-专利-软件著作权”整体知识产权体系,系统完全国产自主可控;
股票市场是已经发行的股票转让、买卖和流通的场所,包括交易所市场和场外交易市场两大类别。由于它是建立在发行市场基础上的,因此又称作二级市场。股票市场的结构和交易活动比发行市场(一级市场)更为复杂,其作用和影响力也更大。
股票市场是已经发行的股票转让、买卖和流通的场所,包括交易所市场和场外交易市场两大类别。由于它是建立在发行市场基础上的,因此又称作二级市场。股票市场的结构和交易活动比发行市场(一级市场)更为复杂,其作用和影响力也更大。
实战部署:完成产品级研制和实战化部署,已应用于金融、政府大数据、智能问答机器人、电信欺诈检测和公安大数据等项目;
性能卓越:国内外学术同行,多个系统应用方和权威测试机构评测报告均显示:性能明显超越国外同类图数据库产品,在大规模图数据和复杂查询中表现更为突出。中国软件测评中心对分布式gStore存储容量和gStore的查询性能进行了严格测试,验证了分布式gStore支持百亿规模三元组数据,且平均查询响应时间仅为1.797秒。


gStore大规模图数据库管理系统自开源以来在开源社区(Github和开源中国)获得了广泛关注。GitHub统计:view总数16195次,download总数1491次 (其中clone1298次),以上全部统计数据开始于2019年6月9日。GitHub开源地址https://github.com/pkumod/gStore

版权声明:文章资源整合于:gStore官网(http://www.gstore.cn/pcsite/index.html)和公众号图谱学苑(https://mp.weixin.qq.com/s/7x-n1YqZnmzQZoO1rFRLQA),欢迎大家访问
en