2023年,中国数据库市场的格局正在剧烈变化着。
据2022年9月国资委79号文件,截止到2027年“2+8+N”党政与八大行业完成100%国产替代,替换范围涵盖芯片、基础软件、操作系统、中间件等领域。如一颗石子打破湖面的平静,虽然湖面之下早已涌动,但是如此明确的在核心行业建立目标还是令人兴奋。
随着国内政策和国际环境的双重利好,中国的国产数据库厂商正在奋起直追,尽全力完成对固有“IOE”的替换。同时,随着互联网的普及以及各种物联网设备的普及,数据量呈现爆炸式增长的趋势,主要的特性可以用 4V 来概括:
规模性(Volume):数据源源不断地产生,数据规模不断变大
多样性(Varity):各种数据源,产生各种结构化、半结构化、非结构化数据
高速性(Velocity):对数据处理的效率、实时性要求越来越高
价值性(Value):数据最终是为了挖掘价值,如何从海量的数据里找出业务价值
数据多了,“用大数据指导业务”就成了更多企业的共识。镜舟科技在创业之初就观察到这四大趋势和共识,并由此提出了“极速统一”的产品设计理念,延续至今。希望通过领先的产品技术架构,让用户省心、省力、省钱地解决大数据平台建设难题。而结合当前的大背景,数据库领域的核心发展方向是云原生+分布式,这又与镜舟科技的发展思路不谋而合。
7月26日,镜舟科技 CTO 张友东受数据猿邀请,参与国产数据库主题直播《分布式、云原生、HTAP,数据库进入技术创新繁荣期》,与达梦数据副总经理冯源、PingCAP副总裁刘松共同交流分享,观点碰撞。

以下是镜舟科技 CTO 张友东分享的主要内容:
1、集中式数据库 VS 分布式数据库 :是替代还是互补?
张友东观点:这是数据库两种不同的架构模式,但是随着技术的发展可以作到统一。
- 集中式数据库是指所有数据存储在一个中心节点上,用户通过网络连接到该节点来访问数据。集中式架构简单、易于管理,但是容易出现单点故障,对于大量数据和高并发访问场景来说,性能和可靠性都比较有限。
- 分布式数据库是指将数据分散存储在多个节点上,每个节点可以独立处理数据的存储和查询请求,各节点之间通过网络进行通信和协调。分布式架构可以提供更高的性能、可靠性和可扩展性,适用于大规模数据处理和高并发访问场景。但是,分布式数据库的实现较为复杂,需要考虑数据分片、数据一致性、节点故障等问题。
总的来说,集中式数据库适合于小规模的应用场景,如个人电脑或小型企业的数据管理,而分布式数据库则适合于大规模、高并发、分布式的应用场景,如互联网应用、大数据处理等。但是随着技术的发展,可能并不会是割裂的两个方向,未来的趋势是分布式数据库,而集中式数据库是分布式数据库的部署特列而已,在技术上可以作到统一。
从技术角度,分布式系统问题包括数据复制、分布式事务等,这些难题的解决会使集中式和分布式在技术上的差异逐步变小;随着云的普及,用户对集中式、分布式的认知会越来越弱,云会屏蔽架构的复杂性,用户更多的关注系统能不能解决业务问题,能否按照业务需求弹性伸缩。技术为需求服务,镜舟数据库诞生的第一天就是分布式数据库的架构,集中式数据库的体验,让用户能更便捷的获得技术创新红利。
2、云原生数据库:云上应用集成成为重要方向
张友东观点:云原生是数据库发展的重要趋势之一,随着云计算技术的不断发展和普及,越来越多的企业将业务迁移到云上(包括公共云和私有云)来支持业务的快速发展。
云原生数据库主要包含以下特性:
- 系统管理层面,云原生数据库借助 K8S、容器化等技术结合,通过 K8S Operator 等形式实现一键部署,后续的管理等动作也可以通过 K8S 高效完成。
- 数据存储层面,云原生数据库借助云基础设施能提供更好的数据可靠性保证,例如 OSS、云盘,相比本地的数据存储 SLA 上有数量级的提升。
- 业务使用层面,云原生数据库能充分利用云的弹性能力,快速地增加或减少存储和计算资源,以满足业务的需求。
镜舟数据库也是坚定的走云原生的技术路线,在 3.0 支持存算分离的架构部署,帮助用户实现更低的数据存储成本,更灵活的弹性伸缩。近期镜舟数据库基于的开源数据库 StarRocks 已经上线了存算分离版本,并广受好评。
3、技术迁移:湖仓一体与向量数据库
张友东观点:用户“既要,又要,还要”的时候,我们用湖仓新范式来满足他的全部诉求。
构建大数据平台,应该建数据仓库?还是构建数据湖?这个是经常被讨论的问题。
数据仓库核心优势主要包含:数据质量高(进到数仓的数据都是经过 ETL 处理)、查询性能高、具备实时分析的能力、数据治理功能完善等。而数据湖的核心优势则在于开放的生态(数据湖通常采用开放的存储格式)、支持存储各种类型的数据、作为统一存储确保 Single source of truth、扩展性强且存储成本低。
湖仓一体,核心就是要同时具备数仓和数据湖的各项优势。用户既要,又要,还要… 既要能低成本的存储数据,又要能高效的分析数据,还有能避免多套系统带来的数据一致性问题等,镜舟数据库的湖仓新范式就是想通过一个系统满足用户对数据分析的全部诉求。
回到实际情况,每个公司大数据体系建设所处的阶段不一样,镜舟数据库可以通过不同的湖仓方案,适配不同阶段的需求。镜舟希望尽可能减少用户的升级成本,同时还能体验最新技术架构带来便利。
- 对于已经有 Hive、Iceberg、Hudi 等湖仓建设的用户,镜舟数据库支持不用做任何的数据 ETL 工作,直接分析湖上的数据,性能相比竞品有 3-6 倍的提升,如果还不能满足,可以将数据按需导入到镜舟数据库管理,能获得 10x 以上的性能提升。镜舟数据库可以与现有的生态配合工作,让当前的架构工作得更加高效。
- 对于行业新兴企业,大数据建设没有历史包袱,可能直接绕过 Hadoop 体系,也不会去选择到底是构建数据湖、还是数据仓库,直接进入到湖仓融合的架构。
(湖仓融合的实施方案)
对于向量数据库,我们保持谨慎的态度。数据库系统从管理角度是一个高度标准化的产品,尤其是关系型数据库,查询语言遵循 SQL 规范。从过去的发展看,有部分垂直领域的数据库从最开始自定义接口语言,到逐步拥抱 SQL。
向量化、大模型等最初也是完全独立的概念,但随着能力的逐步完善,要发展起来,它就得拥有各种系统管理的能力,逐步也就演进成了数据库系统。最终这些技术不同程度的与数据库进行结合,而结合的深度在于其与 SQL 适配方式。
- 有一部分是在外部,比如最近 AIGC ,很多做数据库管理系统的厂商已经提供了自然语言到 SQL 的转换能力,让数据库系统也能听懂"人话"。
- 一部分则是数据库内部,直接扩展向量数据类型的支持,通过 SQL 提供向量分析检索的能力,作为数据库标准能力的一部分。新技术与数据库融合的过程中,对数据库的架构也提出了新的挑战,这些也间接的推动着数据库技术的发展。
但作为数据库厂商,也不能被新技术打乱了自己的产品节奏,硬生生的跟新技术沾上边,蹭热点;拿向量化数据库举例,Chroma 底层就是基于 Clickhouse 的基础能力构建,而这些镜舟数据库都能更好的提供支持,如果这时就去把镜舟数据库往向量化数据库热点方向推,显然不是一个正确的决定,我们更应该在当前优势领域取得更大的突破,引领行业。
结语
近几年数据库国产化非常热,国家出台了一系列政策和措施来促进国产数据库的发展和应用。国内数据库厂商,从原来大厂为主,到现在一系列 startup 数据库厂商的涌向,呈现蓬勃发展的态势,各个厂商都在加强技术研发,不断提升数据库的性能、安全性和可靠性。镜舟也会积极去拥抱国产化,不忘初心,真正把国产数据库应用在国家的各行各业。




