
创邻要提着探照灯,而不是看着后视镜前进,用硬核科技开拓认知智能的时代。

“想象一下,这间会议室摊满了几百份文件,如果你想在一毫秒内,找到其中和我有关的全部信息,如何实现?”
谈到图数据库,张晨眼里有光。枯燥的技术概念,一经他口,就成了生动的例子:“假设在空间内造一个水晶球,用水晶线连接球体和文件中与我相关的信息,将它存储下来。当你牵动水晶球,可以得到各个文件中关于我的数据。图数据库就是这个水晶球,围绕一个主体,关联着海量信息,改变了数据之间关联的方式。”
牵动“张晨”的这颗水晶球,见证了一条从科学家到创业者的转型之路。在加拿大滑铁卢大学获得计算机科学博士学位后,张晨先是在麦吉尔大学做博士后,之后担任了美国运通大数据科学家、Splice Machine软件架构师,并在加拿大创立底层数据库公司Graph Intelligence Inc。2015年,张晨来到杭州,成立创邻科技(以下简称创邻),打造自主可控的图数据库产品。
创邻取自英文create link,寓意“创造连接”。张晨认为,通过建立连接让孤立的数据形成完整、全面的知识结构体,赋能用户去洞察、创新,是图技术存在的本质价值和意义。
“就像《黑客帝国》最后一幕,世界会变为网状,日益发展的数字化生活中,图数据库会成为表达网络世界更直白的方式。我坚信图技术是未来数据管理中不可或缺的模块,是数字化企业创新的引擎。”

谈创业初心当时我还不知道“图数据库”,想找到让数据高效联通的技术
章丰:图数据库是个新物种,用普罗大众都能理解的语言,先做个科普?
张晨:世界是广泛关联的,我们的数字生活到处充满着网络,社交网络、供应链网络、交通网络、药品网络……比如,你要买一张拼旅程的机票,如何规划路线,进行全局优化;疫情导致某个城市交通中断,物流路线如何调整,降低运输成本?生活中充满了网络结构,人们日用而不知。
图数据库中的“图”,是将客观世界的人、事、物抽象成“点”,将他们之间的关系抽象成“边”。任何可以用关系定义的客观事物,都可以用图模型有效表达。

「图数据库」释义
总的来说,图数据库的价值和意义,就是通过建立连接,让孤立的数据形成完整、全面的知识结构。
章丰:你是怎么和图数据库结缘的?
张晨:我读博期间的研究主要基于Hadoop(分布式系统基础架构),参加工作后,我接到一通电话,对方说让我延续梦想,我还以为是骗子。其实是我的博士论文成果被硅谷一家公司产品化,成了他们的核心底层技术。我也进入那家公司,研究分布式数据库。在服务大型企业客户的过程中,我发现业务中开始出现二三十个多表关联的需求,需要做海量的数据大规模关联查询,很难用现有的数据库技术解决。
所以我认为,世界会从0101的状态,变成万物互联;市场上,大客户有了更复杂的数据关联需求;专业上,我做的是分布式计算,“老婆同学”(指张晨的妻子吴菁,创邻科技COO)做的是大规模社交网络分析,这就是我们该干的事。
当时我还不知道“图数据库”,只是抱着简单的初心,想用一种可以高效联通数据的技术,赋能各行各业,释放数据资产的价值。
章丰:你们已经在加拿大创业了,2015年又回到了国内,是出于什么考虑?
张晨:中国有巨大的人口基数和成熟的数字化基础,具备产生海量数据、催生上层技术和应用的基本条件。做数据关联、创造数据连接价值,中国会是全球最好的市场,没有之一。投入基础软件研究,现在正当时。
2015年底,我回国参加浙大竺可桢学院的校友会,在杭创业的师兄告诉我,国内有丰富的数据关联场景,政府对人才项目的支持力度很大。杭州有我的母校浙江大学,有我的同学圈、朋友圈,还有高科技产业的集聚效应,所以我们带着在国外的技术积累和商业思考,回到了杭州。
谈应用场景章丰:相比常用的关系型数据库,图数据库有什么特点?
张晨:关系型数据库以行、列为基础存储单元,类似Excel表格。图数据库以点、边为基础存储单元,是网状结构。关系型数据库解决的问题是如何有效的管理数据,图数据解决的问题是如何有效的管理数据间的关系,从而释放挖掘数据的最大价值。
什么是图数据库 | 创邻
比如,在生鲜App场景中,运营人员需要深入挖掘某省女性用户的画像,了解她们最爱购买的水果、酒类和甜品,引导促销活动。这些数据在关系型数据库中表现为用户、订单、订单详情、产品四张表格,哪怕每次只查询一个关联数据,都需要逐行扫描表中所有记录。
图数据库模型中,省份、用户、订单等以节点存储,并通过位于、订购、包含等关系连接。做关联查询时,图数据库只需查询指定实体,比如某一省份,就能实现关联查询,了解该省用户、订单等,查询成本与全局数据量无关。

生鲜App场景示例
所以,在关联查询的效率上,图数据库比关系型数据库提升了千倍以上;同时,图模型表达关系也更灵活,一目了然。
章丰:图数据库在关联和检索效率上占优势,但不能替代关系型数据库?
张晨:两者是互补关系。关系型数据库仍然有其存储的优势,针对具体的业务场景,可以有不同的选择。一些传统企业数据存储需求小,只使用图数据库可以满足,节约成本。
章丰:从发展阶段来看,图数据库有点像两年前的区块链技术,行业都在找技术落地的“爆款”场景。图数据库找到了吗?
张晨:我们也在找killer app(杀手级应用),难点在于,底层系统面向不同行业,扮演的角色不同。图数据库的关键应用场景要满足几个条件:市场大、普适性强,且业务为网状结构。业务的网状结构越明显、越复杂,图数据库的优势越显著。
创邻业务覆盖的电力、金融、营销、电信、供应链、社交、公安等领域,都符合这些特征,我们可以在每个领域选择典型场景先行落地。

图数据库应用场景
在金融领域,图技术可以追查团伙欺诈、反洗钱。举个真实的例子,某市公安局打击洗钱,需要梳理2万多个银行账号,4000万条交易记录。常规的人工逐条比对,半年时间才能摸清洗钱的供应链。利用图数据库,导入交易数据后,系统会构建出一张交易网络图,识别洗钱网络、关联交易账户,做到秒级完成。同样,对于金融领域的反欺诈、套现风险防范,公信贷风控等场景也适用。
疫情场景下,图数据库可以辅助流调追踪,比如收集半小时内,通过某一红绿灯的人、事、物、车的具体信息,追踪确诊病例的密接、次密接,等等。

从确诊病例(红框)出发,顺着关系线,图数据库能快速锁定密接(蓝框)、次密接(绿框)。
谈发展历程原料积累和市场需求,倒逼图数据库兴起
张晨:海量数据的充分累积,关联需求的不断增加,倒逼图技术进入了主流赛道。图数据库的兴起,是在人们已经解决了高效数据管理之后,转向提取数据价值的体现。
图数据这项技术的代码早在2002年就出现了,但直到2013年,都没有被国内外大规模启用。因为,当时数据作为生产原料,还不具备完备的基础。数据分析工作需要花费大量时间在数据清洗上,比如有的文件需要用OCR技术识别再提取。
2015年我回国创业时,在搜索引擎上只有几条图数据库的记录,研究比较早的团队也是从单一场景切入。后来大家熟知的就是天眼查、企查查,在工商数据领域运用了图技术。
消费互联网高速发展,淘宝通过建立买家和卖家的网络,降低了交易成本,促进了电商的繁荣;滴滴通过建立车主和行人的网络,提升了整个社会的出行效率……基于大网络体系的商业模式,会产生海量关联数据,企业需要处理数据的能力,图数据库就登上了舞台。
浙江正全面推进数字化改革,杭州蓬勃发展数字经济,各行各业都需要打破数据孤岛、高效协同。面对广泛的多源异构的数据要求,图数据库作为一种基础设施,能把网络化的世界,用网络化的形式来存储和处理。
未来,图数据库一定会和水电煤一样,成为一种生活方式。
谈核心优势打造自主可控的国产图数据库,打好软件应用大厦的地基
张晨:原生,意味着Galaxybase不依赖其他数据库的存储系统,真正实现了国产化和安全自主可控,保证客户的关键业务不受外部环境约束,同时可以深度适配各类国产软硬件。尤其对于有明确国产化需求的企事业单位,原生有明显优势。
Galaxybase支持分布式水平扩展的方式,可以通过增加集群机器数量的方式来提升集群的计算和存储能力。海量查询、计算的任务,可以分布式分发给不同的服务器,并行完成。处理5万亿超级大图,只需要50台机器集群,企业花费数日的离线分析,变成了实时决策的在线智能。
章丰:开源闭源,也是基础软件绕不过去的问题。你怎么看?
张晨:创新企业开闭源,前提是关注自己的“KPI”,分析“天时、地利、人和”三个前置条件。
“天时”指的是外部市场环境。图数据库国内外的市场份额已被成熟产品占据,开源能让产品在市场采用率上有先发优势,但商业价值的转化和利润是关键。在图数据库这种新兴的ToB底层技术领域,开源在国内既无法获得足够的产品迭代输入,又极难变现。
“地利”代表国内的开源环境。国内外图数据库厂商中,技术来源于社区贡献的非常少,作为用户使用尚在早期阶段的新技术,甚至连用户的使用场景反馈都不多。国内的开发者大多在业余时间参与开源项目,很难持续参与研发。
“人和”,是看产品的定位和目标人群的需求。国外成功的开源项目,大多针对细分领域的特定需求,这类小而美的产品,开发周期相对较短,开发者可以快速学习、介入并进行修改和迭代。
所以,开源要想清楚我在其中创造了什么价值,首先让自己活下去,才能创造价值。综合开发效率、性能、维护难易度等问题,我们决定在闭源基础上做行业应用,或者开发小型独立数据库。当国内的开源土壤更肥沃,我们也将开放部分功能,助力开源生态。
章丰:近几年内,创邻对国内外的市场如何规划?
张晨:我希望打造自主可控的国产图数据库,释放数据关联的价值。如果把应用软件比作高楼大厦,基础软件就是地基。互联网时代,中国涌现了很多优秀的应用软件企业,但基础软件的市场份额仍然被国外厂商占据,一旦外部形势变化,大厦就岌岌可危。
所以图技术库服务更需要local for local,在疫情和国际形势影响之下,这也是一条更可行的路径。国内有丰厚的数据生产资料,市场迭代快、机会多,信创环境利好有自主知识产权的基础软件。创新企业可以用好这几年的窗口期,修炼内功、增强体质。
谈行业生态把产品能力磨砺得足够强,有实力在夹缝中生存
章丰:在图数据库的推广过程中,你遇到的最大挑战是什么?
张晨:现阶段挑战主要在于市场教育。因为我们离应用较远,大众认知比较困难,客户倾向于为问题买单,一个问题就是一套解决方案,单靠图数据库公司很难完成。
我刚回国的时候,就遇到一个巨大的surprise。客户说“你的技术很好,给你四台机器,把我的问题搞定”。翻译一下他的需求,就是从搭建底层环境、装数据库、到应用层,再到和业务人员沟通的界面,一整套的解决方案由我们实现。后来我们决定只做图数据库层,因为这是我想做的,也是我擅长的,而不是把自己变成一个集成商。
章丰:这确实是国内外软件服务的差异,国外软件服务起步早,分工比较成熟。
张晨:国外市场为单一技术产品买单的意愿更高,服务商拼的是技术性能、服务质量,创新企业可以沉心打磨一个小而美的产品。国内比较“卷”,打个比方,企业能自研60分的产品,就不愿意花钱外采90分的,导致行业生态的无序。
我相信,随着中国市场的成熟,这种现状会得到改善。新一代的创业者,原创意识会更强,会更enjoy产品打磨的过程。这种转变需要一个过程,没有一招致胜的方案。
章丰:目前创邻是否需要协助应用商实现前端解决方案?
张晨:我们坚持做产品化的公司,以图数据库产品为核心,前端解决方案可以与合作伙伴和KA客户协同。在我们服务的客户中,相当一部分标杆客户,已经买了很多“烟囱”,在不改动前端业务系统的前提下,通过优化底层设施,也就是动力部分,驱动“烟囱”更好地运行。
章丰:新兴赛道总是不乏巨头的身影,初创公司如果定力或实力不足,可能会变成巨头孵化出的解决方案之一。
张晨:在这场博弈中,我们要把自己的产品能力磨砺得足够强,有实力在夹缝中生存。巨头会涉足这个领域,但打法往往基于现有的系统和平台,从项目角度出发,不是为了一个通用化产品进行设计的。创邻过去六年一直专注在底层数据库的研发上,我们在产品迭代、客户需求理解、服务响应上有相对优势。
对于巨头抛来的橄榄枝,我们也以开放的姿态拥抱,也期待与云厂商合作。云厂商自研的图数据库,未来将占据公有云市场。在同样广阔的私有云市场,一定有创邻合作共赢的机会。
谈创业与家庭章丰:创业不易,有没有过后悔的时刻?
张晨:不后悔,我很庆幸这个选择。前三年是难熬,刚开始团队就三个创始人,每天在星巴克工作,互相当“气氛组”。基础积累期,家里卖了套房子,才让公司起死回生。创业累,但也是一条让人快速成长、终生学习的道路。有人像我一样喜欢创业,有人喜欢按部就班地工作,社会分工不同,各有自己的快乐。
创业者,要天生心大、天生乐观。我妈就不适合创业,无论我说事情做成了还是没做成,她都能失眠。同时你要愿意学习,市场变化很快,一定要拥抱变化,变化才是最大的不变。
章丰:八卦一下,是不是“夫妻组合”,让创业没这么难了?
张晨:底层逻辑是“家和万事兴”。现在我主要负责融资、访谈,技术方向、公司战略,她负责日常运营。从大学到现在,我们认识22年了,非常互补,有事一起扛。当然,一起创业,就有更多的“吵架资源”,只要大家目标一致,都能解决问题……不过,一般是她说了算(笑)。
章丰:这条是关键方法论(笑)。
张晨:其实我想做的事可多了,早年在国外,我想做少儿英语,让外国人、留学生在线教中国的孩子英文。老婆听了劝我说,你很会融资吗?to C烧钱,会融资的人很快可以超越你,就把我劝住了。
创业就是九死一生。回忆创邻的成立,我可能会说这是个“美丽的意外”,但我们相信它的成功也将是一种必然。成功在于关联,and WE CONNECT THE DOTS(串联生活的点滴)。

达成目标后,你如何犒劳自己?
出去吃一顿。
挑选合作伙伴,你最看重的品质?
靠谱的实诚人。
给创业者的一个锦囊?
家和万事兴(老婆说了算)。
你最想改变世界的一件事?
如何定义“数字新浙商”?
传统浙商更多在实体领域,数字新浙商有更多“硬核科技”的属性。科技创新已经代替模式创新,成为驱动经济高质量发展的核心动力。

转载 | 合作 | 约访 请联系:
微信号 jlj781874701








报名解码数字新浙商专访






