

为什么要写这本书?

过去的10年是移动互联网飞速发展的10年。仅仅10年时间,我们大多数人的生活已经彻底互联网化,我们的出行、餐饮、购物、社交、协同办公几乎全部可以通过移动互联网完成。
过去的10年也是大数据与云计算技术蓬勃发展的10年,大数据的4V与公有云、私有云、SaaS的概念如此深入人心,以至于所有行业都无可避免地或拥抱这些新的技术理念或被这些新的技术理念所洗礼。
如果说移动互联网和互联网关注更多的是如何在业务应用层创造并满足用户的需求,云计算和大数据就是在基础架构层与数据处理科技上通过技术革新来支撑上层的互联网化的业务需求。
说到过去10年的技术革新,AI(人工智能)是我们无法忽视的,它已经远远超越了概念的范畴。我们的生活与工作在互联网化的同时,也被逐步AI化。例如,信息的获取、出行数据的使用、购物,任何通过互联设备(手机、电脑、智能终端 )完成的工作都已经或即将经历AI化。
我们用技术栈的视角来层次化地分析问题,云计算所代表的是最底层的基础架构;以大数据为代表的数据处理技术(DT)处于中间层,其中最主要的就是数据库(这也是为什么从20世纪90年代开始,数据库被称作中间件,近年提出的中台概念在本质上正是30年前的中间件,这是后话),图数据库正处于这个承上启下的中间层;最上层解决的则是移动互联网应用问题。
AI技术贯穿以上3层技术栈,因此,了解AI有助于了解一门正在从根本上改变科技、改变行业、改变我们所处世界的重要技术——图数据库技术。在这里我们先前置一个概念:人工智能发展的终极目标是实现强人工智能,强人工智能指的是让机器和算法像人类一样具备图的思维方式。图思维方式的本质是用高维图的方式100%映射和还原世界——实际上是一种图计算与分析的方式(或者说是依托图数据库的计算模式)。如果人脑是终极的数据库,图数据库就是迈进并实现它的最佳路径。
为什么图数据库是终极数据库,而业界常见的关系型数据库(分布式数据库)、NoSQL类数据库、数据仓库、数据湖泊、湖仓一体数据库不是呢?要想弄清楚这个问题,就需要了解烟囱系统(siloed system)和浅层计算(shallow computing)这两个问题。
过去的40年间,随着关系型数据库的发展,几乎每一家企业,特别是大中型企业中形成了一个又一个像烟囱一样的系统,互相之间存在着“部门墙”“系统壁垒”“业务藩篱”,不同的业务部门与系统之间的通信与数据共享非常困难,而任何一个新的业务需求或需求的变动即意味着关系型数据库层面上的一整套复杂开发流程的变动,甚至是又一套新的系统的出现。随着数据量的增大,越来越多的T + 1甚至T + N类型的批处理操作开始出现。
随着过去10年间大数据、数据仓库、数据湖等系统陆续出现,虽然其初衷是把全量的数据集中进行处理,但是和关系型数据库一样,这些系统天然地只具备浅层计算的能力,让数据一入湖仓即沉底,很难及时对深度下钻、关联、归因分析等不断变化的需求做出反应。而图数据库与实时图计算技术可以通过对多源、多维的数据进行深度下钻、关联、归因分析,在提供深层计算能力的同时,打破了系统间、数据间存在藩篱的现状。
中国人工智能奠基人之一、中国科学院院士、清华大学人工智能研究院院长张钹教授提出:以深度学习为代表的第二代人工智能技术在世界范围内已经触及天花板,后续突破可能的途径就是跨入第三代人工智能,包括知识图谱、图计算(图数据库)等新的体系架构的发展。
这番话背后的逻辑是清晰的:人类庞杂的知识体系的逻辑化、结构化与可视化表达最好的途径就是知识图谱(关系图谱),而对知识图谱进行逻辑推理、推导、演算、查询,尤其是进行深度、高效、智能化、可解释的运算与查询最可行的工具就是实时、深度的图计算引擎。而当计算引擎与存储引擎、知识图谱有机统一的时候就形成了图数据库。可以进行深度、实时、高并发、白盒化可解释的图计算与分析的图数据库是推动AI向前发展的核心武器。
图数据库所具备的区别于传统数据库或AI系统的能力,称为“图增强智能”(graph augmented intelligence)。图增强智能不是黑盒化的暴力计算,或缺乏可解释性的深度学习与神经网络,它通过释放机器的算力,让算法得以高效执行,并通过知识图谱以白盒化可解释的方式忠实、高效地完成工作。
在数据库与人工智能的发展历程中,笔者结合自己过去二十几年间作为一名硅谷IT老兵和中关村科技创业者的亲身经历,预见到图数据库与(实时)图计算技术不仅会占一席之地,更会成为一种主流的甚至终极的数据库,并赋能新一代的人工智能蓬勃发展。本书是笔者对过去几年间沉浸图数据库研究的感悟与阶段性总结的梳理,希望分享给更多志同道合的朋友。(孙宇熙)

01

读者对象
· 图数据库、图计算项目与产品的开发者、使用者、决策者;
· 数据库技术爱好者,任何对图技术感兴趣的人;
· 任何没有限制性思维、秉持终身学习信念的人。
02

内容简介
这是一本能帮助读者快速掌握图数据库的原理、架构、算法、扩展、规划、测评、优化以及实战应用的著作,书中的理论和实践均来自国内领先的图数据库企业Ultipa的科研成果和实践经验,由Ultipa的创始人兼CTO孙宇熙领衔撰写。
该书内容全面、体系完整、循序渐进、深入浅出、图文并茂,兼具理论性、实战性、趣味性。用通俗的语言将抽象的图数据库技术具体化、形象化,将带领读者经历一次非凡的“图数据之旅”。
03

通过此书,你将掌握
· 图数据库、图计算的概念与区别;
· 图计算、图存储、图查询语言的原理;
· 高性能图存储架构、计算架构;
· 图数据库查询与分析框架的设计;
· 度计算、中心性计算、相似度计算、连通性计算等图算法;
· 可扩展的图数据库设计;
· 高可用分布式设计;
· 图数据库在决策智能、反欺诈、反洗钱、智能推荐、流动性风险管理等多个领域的实战经验;
· 图系统的规划、评测与优化。
04

目录
前言
第1章 图计算与图数据库的历史1
1.1 到底什么是图1
1.1.1 被遗忘的艺术:图思维方式Ⅰ1
1.1.2 被遗忘的艺术:图思维方式Ⅱ6
1.1.3 图技术发展简史11
1.2 大数据的演进和数据库的进阶16
1.2.1 从数据到大数据、快数据,再到深数据16
1.2.2 关系型数据库与图数据库19
1.3 万物互联时代的图计算20
1.3.1 前所未有的能力21
1.3.2 图计算与图数据库的差异26
第2章 图数据库基础与原理29
2.1 图计算29
2.1.1 图计算的基础概念30
2.1.2 图计算的适用场景46
2.2 图存储50
2.2.1 图存储的基础概念50
2.2.2 图存储数据结构与构图58
2.3 图查询语言的进化65
2.3.1 数据库查询语言的基础概念65
2.3.2 图查询语言71
第3章 图数据库架构设计83
3.1 高性能图存储架构83
3.2 高性能图计算架构94
3.3 图数据库查询与分析框架设计110
3.3.1 图数据库查询语言设计思路110
3.3.2 图谱可视化123
第4章 图算法129
4.1 度计算130
4.2 中心性计算134
4.3 相似度计算138
4.4 连通性计算142
4.5 排序计算147
4.6 传播计算151
4.7 社区计算155
4.8 图嵌入计算166
4.9 图算法与可解释性171
第5章 可扩展的图179
5.1 可扩展的图数据库设计179
5.1.1 垂直扩展180
5.1.2 水平扩展187
5.2 高可用分布式设计196
5.2.1 主备高可用196
5.2.2 分布式共识系统199
5.2.3 水平分布式系统206
第6章 图赋能的世界218
6.1 实时商务决策与智能219
6.2 最终受益人223
6.3 欺诈识别226
6.4 反洗钱与智能推荐228
6.5 资债管理、流动性风险管理240
6.6 交叉风险识别与计量248
6.6.1 图计算在交叉性金融风险管理领域的创新248
6.6.2 图计算技术在金融领域的广阔前景 252
第7章 规划、评测和优化图系统254
7.1 规划图系统254
7.1.1 数据与建模256
7.1.2 容量规划260
7.2 评测图系统263
7.2.1 评测环境264
7.2.2 评测内容268
7.2.3 正确性验证279
7.3 优化图系统287






