暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

人工智能从高校实验室到工业界实际应用有何不同?

Ultipa 2021-10-18
381


AI离我们如此之近,与我们的生活如此交织,了解AI还有助于了解一门正在从根本上改变科技、改变行业、改变我们所处的世界的重要技术——图数据库技术(图计算)。在这里我们先前置一个概念:人工智能发展的终极目标是实现强人工智能,强人工智能指的是让机器和算法像人类一样具备图的思维方式。图思维方式在本质上是用高维图的方式100%映射和还原世界——实际上是一种依托图数据库的计算与分析方式。如果人脑是终极的数据库,图数据库就是迈进并实现它的最佳路径。


图:与人类大脑神经网络类似,深度学习就是试图模仿大脑神经元之间的递质的传导和信息的处理


第三代人工智能(AI)是2019—2021年间由中国人工智能之父、中科院院士、清华大学人工智能研究院院长张钹教授率先提出的。区别于第一代人工智能(1950—1980年代)着重于计算机推理运算;第二代人工智能(1990—当下)以机器学习与深度学习,广泛存在算法黑盒化、计算不可解释且算力浪费严重、计算效率低下等问题,第三代人工智能需要数据知识算法算力四要素”协同,注重算法白盒化可解释,以及算力的大幅提升。图计算(图数据库)被认为是一种典型的通过增强智能方式实现的稳健的、更贴近人类智能的——第三代人工智能技术


图:《中国科学》2020年第50卷 第9期:1281—1302


张钹教授指出,世界范围内的AI已经触碰到了天花板,后续突破可能的途径包括知识图谱、图计算(图数据库)等新的体系架构的发展。这番话背后的逻辑是清晰的:人类庞杂的知识体系的逻辑化、结构化与可视化表达最好的途径就是知识图谱(关系图谱),而对知识图谱进行逻辑推理、推导、演算、查询,尤其是进行深度的运算与查询最可行的工具就是实时的、深度的图计算引擎。而当计算引擎与存储引擎有机地统一的时候就形成了图数据库。可以进行深度、实时、高并发图计算与分析的图数据库是推动AI向前发展的核心武器。


图:欧拉开创了数学的一个新的分支——图论与几何拓扑


图计算(图数据库)肇始于学术界对图论的研究,从最早的200多年前的欧拉的七桥问题演化出早期图论,再到后来的地图上色问题、20世纪60年代的随机图理论研究、多种最短路径算法,以及过去20年间随着大数据框架和理论发展而形成的各种社交图谱(图数据集)研究。

图:地图上色问题是数学中典型的NP完全问题。随着计算机的算力的提升被不断演进,直至2005年,通过复杂的人机交互理论证明软件的帮助,以通用的方式证明了四色地图的可行性,后期又演进到五色图


那么,学术研究的图数据和工业界的图数据有哪些区别呢?

学术界
工业界
简单图(单边图)
多边图
同构图
异构图
静态图
动态图
无属性
多属性
小图形式
中大图形式
忽略用户体验
注重用户体验

表:学术界VS.工业界图数据的特点对比


U

偏学术界图数据的特点有哪些?

1

简单图

简单图,也可以叫单边图,英文是simple-graph。任意两个顶点间只能存在一条边的情况在图论中的定义为单边图。

2

同构图

学术界的图基本都是同构数据,比如路网、社交网络数据……

3

静态图

图数据集一次性导入计算框架,之后不再更改,如果更改,则需要重新加载。

4

无属性

除了可能的方向之外,几乎没有属性,完全依赖图集所形成的拓扑结构(topology)来进行计算分析。

5

通常学术研究的都是小图

通常学术研究的都是小图(比如一般都是几千个点的图),大图几乎都是合成出来的,为了造出大图而生产出大图,而且只有一张图,图与图之间不会有任何关联关系,更不用说联动。

6

用户体验

根本无需考虑用户体验。


U

工业化图数据的特点有哪些?

1

多边图

多边图,英文称为Multi-graph。任意两个顶点间可以存在多条边的情况为多边图。要更自然的表达真实的世界,显然是需要多边图的。否则的话,就需要制造大量的实体和没有太多意义的关联边来构图。单边图的构图会有数倍于多边图构图所消耗的顶点与边,并且效率低下。


2

异构图

工业界不能仅限于同构图,这个太理想化了,异构图、多源融合数据需要被支持……

3

动态图

数据不断动态变化,包括增、删、改、查等操作。

4

多属性

如金融行业、交易图谱等,点、边都会有多种属性。

5

中大图、多图、有联动

一般都是中大图,从几百万到几亿、几十亿的规模;也会有千亿规模的图,但是往往会形成多张图,图与图之间可能会联动。

6

用户体验

一流的用户体验。


上面这几点已经能简要地说明学术界和工业界的区别了。此外,双方的研究对象解决问题的思路出发点也都不同。值得一提的是,今天几乎所有学术界产出的图计算框架都符合学术界的特点——静态、无属性、单边……其实,很多工业界的图数据库是从学术界出发的,可想而知在底层架构上面他们就会遇到各种各样的挑战,例如无法很好的应对动态的、海量的数据,无法对多边模式进行直观、便捷的数据建模,不注重用户体验……是的,很多人才都源自于学术界的培养,但是很多时候,象牙塔里面做了太多的假设,理论很丰富,工程能力和实践落实却很骨感,久而久之一定会与工业界脱节。


窃以为,最好的、最流行的关系型数据库不是象牙塔里面构建的,无论是从IBM的System R到后面的Oracle,还是Sun Microsystems的Mysql或者是PostgreSQL;图数据库大抵也会遵循类似的思路,工业界的解决方案更贴近应用、贴近客户需求,或可在很大程度上反哺学界。理论到实践,基本就是实验室与实际应用之间的“大不同”之所在!


历史回顾

文库 | 点进来!图数据结构的进化

文库 | 图数据库基础知识—壹

文库 | 图数据库基础知识—贰

文库 | 数据库查询语言的进化(上)

文库 | 数据库查询语言的进化(中)

文库 | 数据库查询语言的进化(下)

人物 | 张钹院士:中国人工智能奠基者
招聘| Ultipa2022届校园招聘全面开启

图计算引发银行流动性风险管理变革


文章转载自Ultipa,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论