一年一度的数据技术嘉年华(DTC)在昨天刚刚落下帷幕,来自国内数据技术领域的顶尖的专家与学者,共聚一堂,成功完成了这次数据技术盛宴。随着数据技术的革新,DTC每年分享的主题,也与时俱进,随之变化。最明显的就是从原来的Oracle技术主题,接着后来新增的MySQL技术主题,再到现在的国产数据库技术主题。我记得2016年,我在北京参加当年的数据技术嘉年华,主要还是Oracle技术主题为主,MySQL技术主题为辅,占满了那年嘉年华“盛宴”的菜单。中间的几年里,没有太多关注这个盛会的情况了,短短的7年时间,国内数据技术的演化,至今,明显地发现,国内的数据技术专家和学者,都在努力地学习和掌握新的技术,正在努力奉献自己的力量,追求和探索着适合国内当代生产要求的企业级数据技术。这些数据技术专家和学者投身研发与推广国产数据库基础软件(根技术)的探索和奉献精神,值得学习,对他们致以崇高的敬意。

国产数据技术的探索工作,前前后后总共算起来,也历经了40余年,也攻克了不少的技术难点,积累了不少的技术专利,也产生不少优秀的国产数据技术产品,当中既有分布式的,也有集中式的,既有适合云部署的,也有适合本地部署的,既有开源的,也有闭源的,既有关系型的(标准SQL和NewSQL),也有非关系型的(NoSQL)等等,适应与解决各种业务场景的产品,丰富多样。国产数据技术探索过程中,取得这些硕果的同时,也凸出了一些问题。今天就借助本次数据技术嘉年华,由工业和信息化部电子五所信创负责人李冬先生总结目前国产数据库目前存在的8类问题,针对性地发表本人的鄙见,以及个人对国产数据库的展望。

李冬先生总结到,中国数据库面临的问题和挑战有以下:技术生态不完整,专业人才缺口大,产品同质化严重,产品替换难度高,知识产权意识薄弱,售后能力不足、关键场景验证不足,生态工具缺失,共这八个方面。

第一个,技术生态不完整。本身国产数据库发展进程,相比国外数据库Oracle和DB2等这些产品,较延后,还需要一长段时间追赶。除了时间上的差距,还有技术文化的差距。我相信国内的技术能力肯定不会比国外的差,但是论到技术文化,有待提升。这是一个起到引领作用的东西,需要培养一下技术文化,才好去做好技术生态。
第二个,专业人才缺口大。这个方面,除了内核研发人才不足,其实也缺少国产数据库应用人员,这两者是相辅相成的。数据库研发出来了,如果没有人去使用,又如何能够去发现这个数据库产品的能力足不足,又怎么能够将产品存在的问题,反馈给内核研发人员去改进。有句老话说,当局者迷旁观者清,内核研发人员,都会觉得自己研发出来的产品是最完美的,当数据库应用人员拿来用的时候,发现这个产品怎么这么多问题啊。
第三个,产品同质化严重。这个从目前的众多国产数据库产品布局来看,关系型数据库主要分为两个站队,分别就是MySQL和PostgreSQL两个站队,有极少的产品是脱离这两个站队的,从而形成了同质化,分派系。但是它们的共同目标是一致的,就是要高度兼容Oracle,毕竟Oracle这个商业数据库老大哥,在关系型数据库系统行业里面,做的是标准。基于Oracle能力过于强大,霸占国内数据库市场主要份额多年,对于国产数据库而言,目前Oracle还是只被模仿而无法被超越。又基于Oracle是闭源的,那只能从开源的MySQL和PostgreSQL两个赛道,追随并寄望能够超越。我们也期望,能够有国产数据库能够超越Oracle,能够参与执行国际数据技术标准,至少也要掌握住国内数据技术的国家标准。
第四个,产品替换难度高。这个在上面第三点也提到了,毕竟Oracle这个商业数据库老大哥,在关系型数据技术里,做的是标准,在国内,成功地霸占了政企、能源、通讯、金融、交通等头部产业以及民生产业的数据库市场份额多年,突然地要拿一个国产数据库来替换它,确确实实是有难度的。因为就当前环境来说,标准和规则都还在人家手上,国产数据库还需要一段时间去追随和打磨,减少当前存在的差距。这个除了SQL语法的兼容性,还有硬件性能、SQL引擎的算法等方面的差距,加大了国产数据库替换的难度。
第五个,知识产权意识薄弱。这个真不好说,可能只是需要时间去提高这个知识产权的意识,那前提还是需要提升一下技术文化。如果认为License就是商业,就当前环境来说,那估计会给国产数据技术的推广带来阻碍,也不适合发展商业数据库。产品的Lience应该仅代表产品的技术产权,再者,当前的国产数据库厂商,也热衷数据库产品开源化,如果数据库厂商定位的是一个闭源商业数据库产品,那可以注重License这种方式提高数据库产品的产权保护。再说,先不说数据库产品是该开源还是闭源,我们不妨可以先将产品和服务两种“商品”分开来看待。
第六个,售后能力不足。这个表面上看,主要由于数据库厂商大多数还处于起步阶段,售后团队的人力投入还是比较欠缺的。我们可以再分析看,其实在各个方面都还存在投入的力度不够。首先就是推广力度不够,产品很难广布于众,很难吸引人投入时间和精力关注国产数据库产品。对产品的控制力度不够,国产开发厂商在控制自己的数据库产品方面,还存在能力欠缺,也就是可控度不高。再一个就是国产数据技术注意力还比较分散,很难集中有限的数据技术人员投入到众多的国产数据库研发和维护工作上面,相应的商务和销售也欠缺,人员力量都被众多的国产数据库均分,分散了。
第七个,关键场景验证不足。这个我在前面的一篇文章《国产数据库是否需要实验室》也提到这个问题,国产数据库的产品能力需要更多的业务场景去支撑提升。这个也需要众多的测试实验,不管是在自己的实验室,还是在跟客户联合成立的实验室去完成,总之需要投入模拟场景和实际场景,不断地测试,进行场景重现,这也有利于提高自己的数据库可控能力。
第八个,生态工具缺失。这个有点跟第一个问题类似,当然这个技术生态里面包括围绕着数据库产品的周边工具。比如可观测性的工具、运维工具、数据迁移和同步工具、备份与恢复工具等等。生态工具越丰富完善,也代表着这个国产数据库的能力更强大。
针对以上的各方面的问题,也想提出自己的一些展望和愿景,简单说就好了,可能不全面,当然也可能过于理想化与苛刻。

首先比较笼统一点的就是提升国内的数据技术文化和氛围,能让更多的人了解数据库这个东西。在国内一直以来,数据库是属于后端的软件,对于众多的人们来说,就是一个黑匣子,数据库在学校阶段对于学生来说,是一个未知的事物。借鉴前人的话语,科学技术要从娃娃抓起,那我们的国内的数据技术培养,是不是也应该从学生抓起。再一个就是,面对当前国内登榜墨天轮社区排名的国产数据库排名数据库产品有200多个,百家争鸣的局面,可能不利于国产数据技术的发展和前进。就像语言一样,一个国家,没有一种统一的语言,很难让这种语言进行推广和普及,这过程尽管可能会面临一些方言消失的结果。那当前国产数据技术是亟需推广与发展的,就需要选择出少数的几个国产数据产品进行扶持和推广,这个可能对众多的国产数据库厂商有点残忍和痛苦,但这个可能是始终要面对的结果,长痛不如短痛,也是为了集中数据技术力量,共同促进国产数据技术的快速发展与进步,当然这个由国产数据技术相关的监管部委来决定和执行了。还有就是改善基础软件厂商之间的共存方式,合理进行技术分工,达成一个协同的商业关系,来缓解目前国产数据库厂商之间的竞争关系。比如说,我几个厂商来发展数据库基础软件,另外的一些厂商集中力量研发适用于国产数据库的生态工具,这样也为后期的国内数据流传和融合提供加速工具。

现在就是众多的国产数据库厂商都在做自己的国产数据库产品,都围绕自己产品做适合自己的生态工具,都想做围绕数据库形成的“全家桶”,这样不免就分散了厂商自己手中的研发力量,也会分散产品和产品运维的力量。还有一个就是,目前OPenAI的技术大受欢迎,国产数据库厂商也积极响应并尝试将AI技术引进到国产数据库里,希望能够将这项技术投射到国产数据库的内核里,成为数据库内核组件的一部分。最后一个就是,根据多维度分梯队形式,在选出头部优秀国产数据库产品的前提下,加大产品的开放性和容纳度,进一步加大产品的推广力度,包括容纳目前已经掌握了数据技术的就业群体人员,以及对高校学生进行紧密培养,这样也能确保数据技术人员得以源源不断提供,并参与了国产数据技术的研发、应用和发展。

上面就是我个人一本正经的胡说八道,就当作是从ChatGPT那里得来的,但可能目前ChatGPT也还没办法能提供这些见解。




