暂无图片
暂无图片
26
暂无图片
暂无图片
暂无图片

暗恋达梦那十年:我的职业生涯与数据产品技术发展的历史

原创 大数据模型 2021-09-10
3903

前言

时光是一把杀猪刀,想起初入IT行业我还是一个少不更事的少年,如今我都已经入行10年。10年期间,我接触不少数据库或者与数据相关的产品。众多产品中,达梦是独特的一位,假如人与数据库之间有情爱的话,我对达梦的爱意是暗恋。暗恋不是热恋,热恋是热火朝天、如胶似膝,而暗恋是有感觉、有意向,但是大部分时间默默无声站在一边,只是观察她的动向,虽然有时侯主动向她示好, 始终没有把三个字说出来口。多年以后时至今日,不经意翻阅2021年8月达梦在墨天轮排名第三名,惊讶在遥远的记忆中荡起一波波涟渏,勾起我一串串回忆,我的职业生涯和数据库的故事,暗恋达梦的那些年。

下面是整整十一年与达梦若有若无的故事,行首引用是达梦产品官方发布的相关信息,中间是我的职业生涯经历过程和感受 ,文尾引用都会放上一个数据产品的诞生,十年生死两茫茫,不经意一瞥,那位少女已经长大成人了。

最近看了《明朝那些事》,采用三部曲表达,ORACLE至尊篇、百花齐放篇、国产database崛起篇。描述有误或者表达不好请多多包涵啊。

ORACLE至尊篇: 2011年初识达梦

2011年我在一个B2B公司工作,我的职位是DBA,更准确来说,我是DBA的学徒,公司给我的岗位叫做DBO(database operator),数据库操作员。负责数据库的整个公司就只有两个人一个是我和我的领导benny,下面尊称大佬B。大佬B在我眼中是神一样的存在。因为他通过了oracle高级认证,而且有过几年的ORACLE的实战经验。当时我们的生产环境已经布署 ORACLE RAC环境 ,已经购买license了,而大佬B是ORACLE方面的专家,所以大佬B的声望很高,在我们IT团队十分有发言权。我对他只有崇拜 ,期望我的数据库修行大成像他一样,对benny的各种建议我是马首是瞻,唯唯诺诺,没有一丝疑问。

阿里的去IOE计划是2008年提出,一直给其它公司借鉴效仿。一天,部门经理说我们也要有计划、有目的去ORACLE,市场上除了ORACLE,还有其它什么数据库工具?

我们俩做了数据库市场产品调研选择,oracle同比产品,DB2划掉、SQLSERVER划掉、只剩下mysql和postgres两个选择。最后,大佬B毫不犹豫把postgres划掉,我问为什么?他的回答让我惊掉下巴,原来他认识mysql的资深工程师和postgres的资深工程师,mysql工程师常请他吃饭,而postgres没有请他吃饭。“我与mysql的人熟一点,可以拿到技术支持”。我思考了一会,总结是大神也解决不了BUG级问题。

我们需要递交产品调研报告给领导汇报,突然我发现有国产数据库的存在,达梦、金仓、南大通用,当时我好奇往前再看,还有国产中间件,原来我们使用的tomcat也是舶来品。为了体现产品调研的丰富性,我就把达梦、金仓、南大通用写进去,没有想到这份报告让我倒了大霉。

大佬B气冲冲的找到我,问我为什么把达梦、金仓、南大通用写进去,你有使用过吗?你有把业务应用在数据库做了综合的全面测试吗?这三款产品能够落地吗?你能保障业务正常健康运行吗?狂风暴雨一阵训骂 。

大佬B又说国产数据库是玩具,可以用来玩玩绝不对不能上生产,出了问题厂商也不能马上修复。这方面他是专业人士,然后他详细和我讲解oracle的事件处理流程追踪。让我知道oracle多么成熟,为什么选择mysql,因为mysql有很多人使用,社区的力量大,踩坑会少,阿里巴巴这样的公司选择也是mysql。

大佬B对我的一番说辞,让我对国产数据库留下根深蒂固的印象,我下载的DM6就摆放在那里。可以玩,不能用!

2011年,北美州一个叫做 MetaMarket的广告公司因为业务数据分析的需求,需要存储海量数据并分析海量数据。MetaMarket调研测试了各种工具数据库,oracle不行,mysql不行,甚至greeplum的这样的MPP数据库也不行。他们发现随着数据增长,运行速度越来越慢。目前市场的数据产品没有一个能满足他们的需求。于是,MetaMarket的工程师开发了一个时间序列数据库druid,该数据库以时间作为核心维度,具备开源、分布式、面向列式存储的实时分析数据存储系统等特征。它能保障高并发环境条件,以时间为索引维度的前提下保证海量数据查询分析性能,同时提供海量实时数据的查询、分析与可视化功能。

ORACLE至尊篇: 2012年初用DM6

新一代达梦数据库管理系统DM7发布。支持大规模并行计算、海量数据处理技术,是理想的企业级数据管理服务平台。 达梦数据库管理系统是达梦公司推出的具有完全自主知识产权的高性能数据库管理系统,简称DM。达梦数据库管理系统的最新版本是7.0版本,简称DM7。
DM7采用全新的体系架构,在保证大型通用的基础上,针对可靠性、高性能、海量数据处理和安全性做了大量的研发和改进工作,极大提升了达梦数据库产品的性能、可靠性、可扩展性,能同时兼顾OLTP和OLAP请求,从根本上提升了DM7产品的品质。

过去一年,我在数据库的修行主要学习了mysql的分库分表,随着写入数据不断增大,通过数据库中间件技术,可以扩大数据的分布写能力。那时候我看oracle的存储过程,琢磨如何转移到mysql,整整研究了一年多,公司都没有把去oracle项目计划落地。benny说这一切都在他预料之中,oracle那有这么可能容易替换,领导只给我们技术部门找活提升一下。还分析阿里为什么选择去IOE的原因,不是oracle不行,而是阿里想省钱。oracle又快又好用,就是价格太贵了,一个CPU的价格是XXX。。。。。。。拿到oracle的证书就是铁饭碗。

趁着oracle向mysql迁移的项目还没有正式立项,我终于把达梦的dm6安装了一下。安装成功后,我再向大佬B请示,我能不能把UAT的数据搬到DM6上面测下。

毫无疑问,当于又给领导一顿痛批,“你为什么想着国产数据库啊,公司都准备B2C业务了,如果B2C的业务展开,现在ORACLE该怎么灵活应对,ORACLE是世界上最强的数据库,你就不能加深手中利器的理解和使用吗?去折腾一个没有价值的东西。”

无奈,我对DM6的使用体验,只是建了一个简表表,再尝试增一条数据、删一条数据、查一条数据、改一条数据,没有进行真正的业务测试,没有通过jmeter进行压力测试,没有经过程序连接测试,对达梦的认识靠大佬的几句训辞。

MemSQL,2012年12月14日发布1.8版本,自称是世界上最快的关系数据库,能实现每秒150万次事务。不但能兼容MySQL而且比MySQL快40倍,技术原理是完全使用内存并把SQL预编译为C++的状态,方便下一次调用。
虽然MemSQL有强劲的处理性能,但是多年以后它也没有把Oracle和MySQL怎么样,dbengines的排名榜依然是Oracle和mysql稳拿第一名和第二名。多年以后,阿里展开去IOE运行,自行开发OceanBase,反而借签了MemSQL的独有技术,所以说MemSQL还是为世界做出了很多贡献的。

ORACLE至尊篇: 2013年DM6第一试

如大佬B所料,虽然公司一直说要用MySQL替代Oracle,但是一直没有真正动手。不知道是对大佬B没有信心还是对MySQL没有信心。大佬B给我作了一个形象的比喻,数据库在信息系统里面的作用相当于人体里面的心脏,它每天源源不断往人体各个器官系统输送活力,为什么要把它替代呢?稍有不慎,就有生命危胁,风险多大啊! 我恍然大悟,业务驱动技术,业务上没有那个需求,技术就没有那个必要,技术是为业务服务的。

公司高层发言,今年要把B2C业务上线,到了年中还没有什么动静。经过再三思考,我决定离职了,在交接工作期间我的时间比较充裕。我总结思考我在公司里面的收获,突然就看到我置之角落的DM6。

大佬B明确指示不允许我用公司的数据对DM6进行测试,终于我想了一个办法。当前我和朋友在合作运营一个电影收费网站,付费的人可以得到电影的种子,我负责技术,朋友负责电影资源,里面的数据库用的是MySQL。我就把MySQL的数据都导出来,然而放入到DM6,然后开启cacti和nagios对目标数据库进行监控。

我的记忆中是观察了两天多,马上又换回去MySQL了。因为有用户投诉不能正常登录,朋友知道我擅自更换了数据库,把我狂骂了顿。用户是上帝,升级改造的维护工作都应该在深夜进行,我已经选择在北京凌晨进行升级,但是没有想到国外还有用户登录访问。

当时DM6的体验感,资源文档没有那么丰富,有一种感觉如果遇上困难,百度或者谷歌搜索都 找不到有效的应对方法。DM6的操作与MySQL差不多,能用,但是感觉没有那么友好。

2013年Facebook正式宣布开源Presto。 一直以来Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。目前该项目已经在超过1000名Facebook雇员中使用,运行超过30000个查询,每日数据在1PB级别。Presto的性能比Hive要好上10倍多。
以上说的是Presto的分布式内存的MPP处理能力,这只是Presto的一个亮点。Presto最大的亮点是跨源异构的连接能力,它可以连接各种各样的数据源,通过自己的分布式内存框架去处理数据。因为这个长处,华为的正式开源数据虚拟化引擎openlookeng就是基于presto进行二次开发,这样openlookeng先天就具备了跨数据源/数据中心分析能力。另外大数据业务场景,基于数据量不大于集群内存池的业务场景,也可以使用presto解决问题。

百花齐放篇:2014年 ORACLE伸不到的地方

2014年,我的身份已经不是DBA,但是公司里面的人包括老板都认为我是DBA,我现在管理对象的再也不是数据库例如oracle或者mysql这些,而是200个节点规模的hadoop集群。

hadoop解决的痛点大家都知道了,就是单点计算能力不够了,通过hadoop可以去实现批量处理能力,最重要是hadoop实现海量数据存储的能力。

大佬B说ORACLE是世界上最强的数据库,在数据分析方面,ORACLE的解决方案是Oracle Exadata软硬件一体化,价格之贵是普通企业都无法承担的。所以hadoop横空出世,弥补了数据分析市场的空白与不足。

早前的hadoop除了cloudera、hortonWork,还有一个高科技公司,那就是英特尔。 我维护的就英特尔的IDH Hadoop。

由于大B哥洗脑甚深,天下之大,莫非ORACLE皇土,但是我真正看到了ORACLE无法伸到的一个地方,全部的数据加起来接近1000个TB,如果用ORACLE RAC来存储,这需要多大的空间量啊,即使强如DS8000存储,它也会有一个瓶颈性能。看到整个机房一列又一列的机柜,我由衷的感叹,除了ORACLE,世界上还有其它的数据产品,超越ORACLE,它们有独自擅长的地方。

要把一个产品打磨好却不容易,当时我维护的IDH HADOOP是最后一个产品版本,团队走的走,散的散。英特尔看势头大好组织了商业HADOOP,因为业务原因很快又把它解散,我记得这个版本的IDH HADOOP是2.5.0,底层的hbase却是0.98,经常性出现很多问题 ,明年2015的回忆都是痛苦的HADOOP集群运维史。

同样是2014年,eBay的研发团队做出第一个中国人的Apache顶级项目Kylin,这是数据分析领域的别样的创新,一处不为人注意的角落,国产基层软件势力正在悄悄发芽。

Kylin是由eBay研发并贡献给开源社区的Hadoop上的分布式大规模联机分析(OLAP)平台,2014年10月初Kylin开放给了开源社区,它是第一个国产Apache顶级项目。技术运行原理是将二维表(Hive表)转换为Cube,然后将Cube存储到HBase表中,以后的查询直接发生在HBase,所以大大提高了查询性能。
与druid一样,Kylin也是一个具备预计算能力的OLAP引擎,擅长实时聚合查询分析业务场景,但是与Druid不一样的地方,Kylin引用了HBase,HBase本身就是一个非常健壮的键值查询数据库。Kylin的核心思想把数据查询范围定义边界范围,然后把范围包括的数据放到hbase里面,不失为一种创新。
除了开源,Kylin也有自己的商业运作公司偶数科技,目前Kylin被 广泛运用于数据分析业务场景,积极与商业智能集成,为分析人员提供了快速访问和分析数据的能力。

百花齐放篇:2015年 学习分布式数据库

这套200个主机组成的系统主要涉及hadoop\hive\hbase三个组件,IDH HADOOP甚至不支持SPARK,从当时来看也是很落伍的系统。因为当时hadoop2都已经出来了,客户却不愿更换,因为成本风险太大。我想,这个风险与数据库替代是同一个等级的风险,只要涉及到数据,都是非常重大的事情。

为了管理好这套系统,我买了HADOOP相关的书,还参加HADOOP相关培训,但是还是不能把这套系统管理好。我觉得主要原因在于hbase0.98版本,因为我在实验也搭建了相同一套的环境,在程序调试的时候总是奇怪的问题,这些问题都没有输出到LOG上面,这些问题切换到apache hbase一个高级版本就一切正常。这个BUG导致的恶果是regionserver服务无故宕掉,我写了一个监控修复程序把停止的服务启动。

这个IDH HADOOP很容易发生常见的故障不一致性错误,这是分布式系统才有的概念,根本原因是数据被错误装载或者数据与元数据不协同导致,除了hbase,包括cassandra、mongodb都会有这种数据不一致性的问题,而在单体数据库没有不一致性这样的错误分类。

一天,我听说隔壁机房是南大通用的科研机房,南大通用是国产数据库。我路过的时候,好奇探头往里面瞄了一眼,里面摆的是一列列的机柜,突然就想起达梦,也不知道它活得怎么样。思念中,IDH HADOOP又发生故障了,急着去救火。

2015年,南大通用引进IBM Informix数据库之后正式发布了国产高端事务型数据库GBase 8t。Informix是一款历经三十多年发展,积累了3600万行源代码的成熟商用数据库。南大通用是否具备消化、吸收乃至创新的能力,还是拿来就用,只是在外面改了个LOGO,外界不得其详。南大通用与南开大学共同编著的《数据库原理和实践教程——GBase 8t Based on Informix剖析与应用》,初显国产基础软件在产业生态建设上的布局,国产数据库人才培养和储备的进程已经在计划执行中。
CockroachDB 是一个开源的、分布式的、无中心化、弹性可扩展、高可用、容错、一致性可调、面向列的数据库。CockroachDB 的灵感来自于一份 Google的研究论文,这篇论文详细地介绍了一种叫做Google Spanner的原型设计。Spanner 将允许 Google 将数据分布到全球上百个数据中心的上百万台服务器。去年2014年,CockroachDB 还是Alpha版,今年2015CockroachDB推出了beta 版,beta 除了实现当初设计的所有功能以外,还新增了对 SQL 的支持,并获得了资本家的青睬。

百花齐放篇:2016年 数据库是什么 本质的思考

达梦大数据平台升级发布,提供从大数据存储、交换、管理、到分析和呈现的一体化大数据管理服务。首个基于DM7的海外项目在泰国教育部成功上线运行。

做了几个项目后,我一直在思考数据库是什么?它的作用,它的价值 和它的本质。

我的总结,数据库是数据的容器,好的容器在数据存储后,同时也高效支持数据的访问使用,随着数据增加和使用,容器具备横向扩展特性,始终能包裹着数据。但是真实上事与愿违,IO使用是容器的头号敌人,即使充分使用了索引和分区还是有IO竞争消耗,尤其事务处理和分析处理都在同一个容器上进行,容器的负担更重。我们必须要找更适合的容器或者协调容器彼此互助共处,让业务系统更稳定。过去,常规作法是通过ETL手段把一个容器装到另一个另一个容器,再根据主题域目标重新打散建模,过滤加工后,最近再放到一个适用应用接入的容器上。

数据库的目的是为数据资产服务的,数据资产管理是一个很大的一件事情,除了相关工具,还需要方法论引导,为了提高资产管理的效率和收益,必须有合适的工具和正确的方法论。 在数据资产不同的实施阶段,可以采用不同的工具,工具可以是数据库或文件系统。工具的作用恰似医生给病人动外科手术,打开工具箱,一排排整齐摆放的都是手术刀,切这里、割这里,不同的工具有不同的擅长使用,医生的使用偏好也非常重要。有些人就喜欢杀鸡也用牛刀,因为牛刀好使。

当时参与的项目都与数据中台、数据湖、仓湖一体化建设有关,上面是我对数据资产和数据相关产品的一些思考。工具是死的,人是活的,我终于明白大B哥为什么喜欢鼓吹ORACLE,因为他擅长使用ORACLE。既然MySQL在一些场景可以替代ORACLE,那么其它数据产品能不能替代MySQL,回忆了下过去的教训,我在想达梦它在数据分析业务某些环节能不能替代MySQL。

当时大数据分析业务场景,一些购买ORACLE EXDATA的企业也尝试往HADOOP转移,还有一些企业引进新的集成处理技术尝试。阿里云在市场上发芽生根沉淀也有一段时间了,而我2016年才参加ORACLE云计算发布会,ORACLE在云计算比起其它大企业发展晚了好几年,这几年听到的都是ORACLE的负面信息和它的力不从心。MongoDB从它身上切肉,阿里云和亚马逊也从它身上分蛋糕。

Denodo是一个具备多种数据处理能力的数据集成系统,在无需共享任何数据源、数据结构、数据中心、或数据库技术的情况下,合并来自不同数据源的实时数据,并让这些数据真正能够为企业所用,技术上的角度来说,它实现隐式的ETL。2016年,Denodo 发布 Denodo Platform 6.0,推出云中数据虚拟化和动态查询优化,并获得Gartner 数据集成魔力象限“远见者”。并兴办 DataFest 加速分析、云计算和大数据计划用户大赛,正式奠定数据虚拟化的概念。
数据虚拟化是是指隐藏底层数据源(关系型数据库、NOSQL、NEWSQL、数据仓库)等技术访问细节,将数据源的抽象和聚合要求将物理资源抽象出来,对外为用户提供一个统一的数据接口。工程技术上Denodo必须具务三个能力,数据连接能力,数据合并能力,数据使用能力。为了更好支持数据服务,商业版的Denodo支持使用Vertica做外部存储,对于已经处理的数据或者已经合并的数据都可以保存在Vertica上面,提高下一次的查询效率。

百花齐放篇: 2017年数据产品调研分类

2017年我的工作内容都是与数据相关,建数、查数、提数是日常工作。我做了一个数据产品市场调研。一打开,数据产品琳琅满目,种类太多了,选择太多了。

  • 从数据库发展的时代分为层次型数据库、网状数据库、关系型数据库、NOSQL数据库、NEWSQL数据库。
  • 从数据使用角度来看分为OLTP数据库、OLAP数据库、HTAP数据库。
  • 从数据处理的方式分为ROLAP数据库、MOLAP数据库、HOLAP数据库。
  • 从数据模型存储组织的方式分为关系型数据库、文档型数据库、健值数据库、内存数据库、图数据库。
  • 从数据对内存的使用程度从低往高分为B树、LSM树、完全装入内存(HANA、MEMSQL)。
  • 从索引的种类分为 时间序列数据库、全文搜索数据库、
  • 从架构组织分为中心化数据库、去中心化数据库。
  • 从数据单元组织分为 行数据库、列数据库、行列数据库。
  • 从数据计算的方式分为单机处理、批处理、流处理。
  • 从数据存储物理位置分为 本地数据库、云原生数据库。

我的总结,数据产品技术发展和人类生命进化演进一样。像地球上的生命,从最原始的无细胞结构进化为有细胞结构的原核生物,从原核生物进化为真核单细胞生物,然后按照数据不同着点多方向发展,始终保持数据存储、数据使用、数据对象原始特征功能。数据库的关键核心技术有并发控制、事务管理、索引、存储引擎、SQL优化器、容灾和恢复技术,数据库的功能和性能强弱要从中取舍,受其约束限制。

我画了一幅图国产数据库现状,调研后赫然发现达梦也在里面。第一反应是这么多年,它是靠什么活着?金仓和南大通用也都在,但是都波澜不惊,我的圈子里面都没有听说互联网企业使用了达梦或者gbase。反而是新兴的巨杉和偶数的名气会更大一点。

最让我印象深刻的是年会的时候,一位领导评价国产数据库,他谈到金仓,说金仓市场竞争力不足,一直是靠国家扶助,如果没有国家它早就挂掉了,它在市场上打不过人家。国产数据库达梦、金仓、南大通用都面临同等类似问题,它们的市场战略是面向企业,而不是个人开发者。所以我们工程师对他们的了解知之甚少。

长江后浪推前浪 ,一代新人胜旧人。TiDB也是这一年横空出世,中国第一家完全致力于开源技术、面向个人开发者的开源数据库。

2017年十月,TiDB 1.0 版本发布,在接下来的六个月中,开发团队一方面在维护 1.0 版本的稳定性并且增加必要的新特性。同年,2017 易观 A10 大数据应用峰会上,针对“有序漏斗”难题进行行业攻坚的“2017 易观 OLAP 算法大赛”公布了最终结果。TiDB以超过原始基准测试近 30 倍的成绩,获得了商业组的冠军。
这时侯的TiDB还是默默无闻,没想到若干年后,它一直位列国产数据库的状元之位,而且长居不下。TiDB与国外的CockroachDB非常类似,两者的思想都来自于google spanner论文,底层都使用rockesDB,支持ACID特性,支持SQL语法。但是TiDB是中心化结构,CockroachDB是去中心化结构。TiDB的市场目标明确指向是MySQL,MySQL能做的TiDB也能做,MySQL不能做的TiDB也能做,TiDB可以在MySQL的基础上做得更好,很多广泛使用MySQL的中小企业到了一定的业务需求都会自然而然转到TiDB。

国产database崛起篇: 2018年国产曙光

2018年发生国际大事,继美国制裁中兴的事件后。2018年8月,特朗普签署”国防授权法“,禁止美国政府机构和承包商使用华为的某些技术。11月,美国联合德国,意大利,日本等国联绞华为,弃用所有华为通信设备。12月1日,加拿大逮捕在温哥华转机的孟晚舟。

一系列的事件打得我们猝不及防,很快华为手机由于美国打压,销量马上被小米手机追上了,大家都知道荣耀以后出货越来越少,甚至停止供货。

信创,即信息技术应用创新。过去,国内 IT 底层标准、架构、生态等大多数都由国外 IT 巨头制定的,由此存在诸多安全风险。因此,我们要逐步建立基于自己的 IT 底层架构和标准,形成自有开放生态,而这也是信创产业的核心。通俗来讲,就是在核心芯片、基础硬件、操作系统、中间件、数据服务器等领域实现国产替代。信创产业是数据安全、网络安全的基础,也是“新基建”的重要内容,将成为拉动经济发展的重要抓手之一。

那年,我和同事和大佬B有过一个吃饭 聚餐,突然,他对我说,“你相不相信ORACLE有没有可能被国产全面替代”,我看着他的脸 ,满脸不可置信,毕竟他一直是ORACLE的布道者。大佬B望向窗外,说你知道我们现在国产车是怎么样了吗?他和我讲中国的电能车的市场,电能车的技术,对比国际市场的差矩。燃油车我们比起德日还有一段技术距离,落后20年,但是我们的燃油车已经不可同日而语,早已经是有一个质量的飞升。他现在开的哈弗H6,开了两年多了,一点问题也没有。而电能车在世界上早已经是领先技术水平,质量比特斯拉要好。

聊到国产数据库,我们没有说到达梦,却说到gbase,大佬B握着拳头说,我们中国做事很有自己一套的,gbase收购了Informix,绝对不是拿来就用,而是有计划、有目的的吸收。相信我,有了信创,有了国家政策红利,很多基础软件都要起来了。

我不知道这时侯的达梦DM7已经推出有一段时间,产品在持续完善中,生态环境需要的手册和文档比以前丰富了很多,并且具备了适配ORACLE迁移的各种方案和相关工具。

TDengine是涛思数据专为物联网、车联网、工业互联网、IT运维等设计和优化的大数据平台。除核心的快10倍以上的时序数据库功能外,还提供缓存、数据订阅、流式计算等功能,最大程度减少研发和运维的复杂度,且核心代码,包括集群功能全部开源。TDengine时序空间大数据引擎已在2018年8月推出正式商业化版本。这一产品,不依赖任何开源或第三方软件,拥有完全自主知识产权,具有高性能、高可靠、可伸缩、零管理、简单易学等技术特点。
国际市场上类似TDengine类似的产品有influxDB、Promethous、OpentsDB等,相对它们,TDengine还是后起之秀。目前世界影响力最大的时序数据库是influxDB,功能最多、性能最好、而且安装、使用、运维都非常成熟。云原生环境最好用的是Promethous,Promethous更多代表着时序数据一体化的解决方案,Promethous本身有自己的时序数据库tsdb。如果数据太多了,横向扩展支持不是很好,所以Promethous支持第三方存储influxDB、OpentsDB。OpentsDB是基于hbase上面做的二弄,底层存储依赖于HBase,其写入性能和可扩展性都得到了保证。OpenTSDB支持多tag维度查询,支持毫秒级的时序数据。

国产database崛起篇: 2019年再见达梦 DM8发布

新一代达梦数据库管理系DM8发布。多样化架构充分满足不同场景需求,支持超大规模并发事务处理和事务-分析混合型业务处理、动态分配计算资源。达梦公司完成了亿元融资。

大佬B的猜测不错,信创政策激励了很多公司自主创新,行业普遍认为,未来三到五年,信创产业将迎来黄金发展期。中国IT产业,将在基础硬件、基础软件、行业应用软件等领域,迎来前所未有的国产替代潮。

我注意到达梦的一个产品发布会,最新的DM8也支持HTAP了,在此之前我接触过MEMSQL、VOLTDB的的HTAP,我注意到甚至巨杉也自称支持HTAP。DM8的一个亮点,行列融合技术进入2.0阶段,自称迈出智能化方向发展的第一步。行列融合使DM数据库具备了在一套系统上同时支撑OLTP和OLAP两类业务的能力。行列融合2.0技术包含两个关键特性,用以弥合行存储与列存储的鸿沟:变更缓存、高级日志。通过变更缓存,用户能够有效提升在列式存储引擎上的高频数据操作性能,使得用于OLAP场景的数据库对象,也可实现高性能并发短事务服务,根据内部测试,基于变更缓存在列存储引擎上的高频插入操作性能,相对于传统的列式存储引擎提升了10倍~20倍。

业务上没有需求,我没有去检验DM8的功能和性能,而MEMSQL的HTAP两用,它的行式存储引擎和列式存储引擎是独力分开,而HANA则在OLAP和OLTP处理上有两套处理引擎。所以DM8的技术还是挺超前,后面2021年的开源的OceanBase3.01也是采用行列融合技术。

除了HTAP,当前的云计算技术非常成熟,除了阿里云、腾迅云,还有华为云,所有的基础组件都可以云化,云数据库大有希望是下一代数据库的趋势,而且PolarDB经过双十一的实践,简单容易获得。高并发的交易场景可以通过PolarDB解决,那么其它数据库擅长其它什么业务场景?

PolarDB是阿里巴巴自主研发的下一代关系型分布式云原生数据库,目前兼容三种数据库引擎:MySQL、PostgreSQL、高度兼容Oracle语法。计算能力最高可扩展至1000核以上,存储容量最高可达 100T。经过阿里巴巴双十一活动的最佳实践,让用户既享受到开源的灵活性与价格,又享受到商业数据库的高性能和安全性。PolarDB融合了商业数据库稳定、可靠、高性能的特征,同时具有开源数据库简单、可扩展、高速迭代的优势,适合各个行业公司的创新业务使用。
2019年,ACM SIGMOD收录的论文《X-Engine: An Optimized Storage Engine for Large-scale E-Commerce Transaction Processing》阐述了PolarDB的核心技术:面向大规模流量场景设计的自研存储引擎X-Engine。

国产database崛起篇: 2020年不一样的感觉 达梦创新产品发布会

“利剑出鞘,智启未来-2020达梦创新产品发布会”在北京盛大召开。同时发布达梦数据共享集群(DMDSC)、达梦启云数据库(DMCDB)、梦图数据库(GDM)、达梦新一代分布式数据库四款产品

2020年,中华神州武汉突如期来一波疫情,武汉封城4个月后,在全国人民的帮助下终于解封。同年,全世界国家都遇到非冠的挑战,但是始终没有中国做得那么出色,中国不但伤亡人数最小,而且表现出对疫情的大国担当。在抗击疫情中,中国第一时间向世界卫生组织、相关国家和地区组织通报疫情信息,第一时间发布新冠病毒基因序列等信息,第一时间公布诊疗与防控方案,同各方分享防控和救治经验,率先作出未来疫苗研发成功后将作为全球公共产品、造福全世界的承诺,为全球防疫合作提供支持。

"第一时间"的来自健壮的信息技术系统的支撑,而信息技术系统的每一次访问都是对底层数据库的访问,"第一时间"从侧面也展我国是一个信息强国。

2020年,达梦又推出了四款产品,产品面向多元化,面向多个业务场景,可见达梦紧跟时势,准备大干一场。但是产品毕竟没有开源,对应用开发者来说不友好,尤其是互联网领域的开发者。

这些我接触数据领域的一些朋友,从他们口中得知,我们的国产数据库达梦在公安、政务、信用、司法、审计、住建、国土、应急等指定专属领域使用,为什么使用达梦?第一是安全,第二是功能和性能也得到满足。最主要是代码可控,毕竟它不是外来品。

我想到我们的国产车红旗,最早的红旗只能为国家服务,中国人辛苦打造多年,直至近年,红旗才实现量产,慢慢的进入百姓的视野中。红旗在国际地位上不是很高,性价比也不是很好,但它是中国人的车。

2020年,华为正式宣布开源数据库能力,开放openGauss数据库源代码,并成立openGauss开源社区,社区官网(http://opengauss.org)同步上线。同年开源数据虚拟化引擎openLooKeng,相关社区和官网同步上线。
openGauss是一款开源关系型数据库管理系统,基于pgxc的架构,用的postgres9.2.4。而openLooKeng致力于为大数据用户提供极简的数据分析体验,让用户像使用“数据库”一样使用“大数据”,它的底层基座使用的是presto。
openGauss 采用木兰宽松许可证(Mulan PSL v2),允许所有社区参与者对代码进行自由修改、使用和引用。该社区同时成立了技术委员会,所有开发者均可贡献代码和文档。openLooKeng开源项目采用商业友好的Apache License 2.0发行许可证,让开发者、用户和伙伴使用更自由。

国产database崛起篇: 2021年数据库竞品浅析

今年是2021年 ,随着2020年华为高斯开源后 ,紧接着OceanBase在6月1日也随着开源,令人意外的是达梦排行第三,而且达梦还不开源,达梦夹在众多开源数据库中间,昂头挺胸。

我不认为这个数据是假的,虽然我至今没有使用达梦去搭建完成一个业务系统,如果是假的,它自然会被市场和用户戳穿。我觉得达梦的战略,是一个农村包围城市的战略,开始在一些冷门生僻的内部系统广泛投入使用,在获得一些经验和技术成熟后再进入国家的关键的部门和行业投入使用,它追求的是产品的稳定性、安全性、可靠性,但是牺性了产品的可能性和性能。

我思考了为什么国外数据库做得这么好?这个问题就和国外汽车为什么做得这么好道理一样?我们可以归根为: 人家洞察市场先机,率先把产品研发出来,根据客户的需求,不断迭代增产品的功能和增强产品的性能。实事求是,有的放矢,把产品深度、广度、宽度做好。产品的深度,泛指产品的运行性能,数据库的启动速度、加载数据速度、查询数据速度等与性能有关的一切东西都是深度范畴。产品的广度,泛指产品的功能,包括数据权限功能、数据认证功能、数据访问功能等等客户生活有关的东西。而产品宽度,另一种角度定义产品,从需求的本质抽象审视问题。

产品深度、产品广度、产品宽度既相互独立又相互影响。如果深度比你深,广度比你广,宽度比你宽,再加上优质的售后服务,后者追赶前者是需要一段时间的。幸亏是没有一个产品做到深度、广度、宽度兼济。正如一辆车既要外观内饰漂亮,又要空间舒适大方,既要科技感十足,又要操控性好,既要动力好,又要油耗低,既要不偷工减料,又要安全,不仅仅是钱的问题,工程技术上也会产生矛盾。

所以我认为国产数据库找到自己的定位和业务场景优势,还是能够做到弯道超车的,你们认为呢?

2021年5月20日,据国际事务处理性能委员会(TPC,Transaction Processing Performance Council)官网披露,蚂蚁集团自主研发的分布式关系型数据库OceanBase在数据分析型基准测试(TPC-H)中,以1526万QphH的性能总分创造了新的世界纪录,不仅总分排名30000GB第一,而且高出第二名微软SQLServer成绩10倍以上。同时,OceanBase 也成为唯一在事务处理和数据分析两个领域测试中都获得过世界第一的中国自研数据库。
2021年6月1日消息,蚂蚁集团自主研发的分布式数据库OceanBase今天正式对外宣布开源,并成立OceanBase开源社区,社区官网同步上线,300万行核心代码向社区开放。此前OceanBase 曾在2013年开源0.4版本,后由于版本不成熟等多方面原因搁置下来。蚂蚁集团OceanBase首席执行官杨冰在采访时指出,上一次开源更多是技术性开源,由于版本不成熟以及技术支撑等准备不充分所以后面没有再维护。

后记

暗恋是喜欢,但是一直没有表达,没有付诸行动,业务驱动技术,我一直踌躇不前。看到有些人写文,为赋新词强说愁,对一物还没有完全认识下决定,会不会识尽愁滋味,欲道还休。我觉得我要把客观真实的感受说出来。本人不是达梦的推手,也不是达梦的黑手,只是普通的一名IT民工。

放眼这十眼,展开信息技术历史发展线,新的数据产品及相关技术层出不迭,达梦没有身先士卒引领时代潮流,但是一直亦步亦趋,跟上时代的变化。中国数据库和和国产车一样与过去相比有翻天覆地的变化,虽然与国际水平依然有一段距离,但是质量已经是大大的提升,各位工程师可以不用国产数据库,但是也不要妄自菲薄。本文跟着我对达梦的回忆,夹杂着本人的职业经历,也希望读者能从本文看到过去十年数据技术发展的风云变幻,我们一直在追赶的路上。

最后修改时间:2021-09-24 16:18:11
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
6人已赞赏
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

文章被以下合辑收录

评论