分布式数据库走向原生设计
随着数据处理规模指数级增长,众多系统面临着性能和成本的双重压力。为应对新的业务需要,数据库领域亟需革命性产品开启未来。分布式数据库的核心理念是让多台服务器协同作业,完成单台服务器无法处理的任务,尤其是高并发或者大数据量的任务。
而原生分布式高可用设计能够在普通服务器上实现无限水平扩展,通过添加低成本服务器即可扩展算力,提升数据库集群的整体性能。所有节点均支持读写,对外提供统一的数据库服务,支持全局索引、全局一致性事务。特别是对客户来说,用法与传统集中式数据库没有区别,从而省去了定制改造的步骤,减少大量人工成本。
除此之外,在高可用方面,容灾能力是关键业务系统的重要衡量指标。原生分布式在设计之初就假定硬件是不可靠的,它可以支持多个数据副本分散存储在不同地域,实现跨机架、跨数据中心、跨地域的容灾部署,能够最大程度提高业务系统的容灾能力。在强一致事务的保护下,变更操作在多个地域保证成功提交,因此当灾难发生时,数据不会丢失,达到高级别的容灾标准。
原生分布式架构是一个全新的设计,具备集群的扩展和收缩对应用透明,并可以按需扩展,没有数量和规模限制;原生的多副本机制支持跨地域的访问和容灾;多活架构,硬件利用率高等优势。可以预见的是,未来更多的产品会走向原生分布式的技术路线,原生分布式数据库也将迎来更好的发展机遇。

分布式数据库架构的设计走向一体化
目前国内数据库主要分为存量替换和增量市场两个部分。其中,增量市场主要以开源语法兼容为主,绝大部分业务逻辑在应用中实现,对数据库能力要求相对较低,很多开源产品也能满足。
商业数据库功能灵活、语法支持多等对分布式数据库的兼容能力设计提出极大的挑战。厂商要用一体化设计的思路,将传统商业数据库的强大的单机能力与分布式融合,将多种负载能力在一套数据库上融合,甚至将多种兼容能力体现在同一套数据库中。
此外,未来分布式数据库应提供数据迁移过程的全生命周期管理,在管控界面上完成数据迁移的创建、配置和监控,交互简便。同时提供多种方式的数据校检和保护,全面高效的保证数据正确性,展示差异数据,提供快速修复能力。因此,未来分布式数据库产品将具备全方位、高标准、高可靠性的平滑迁移能力。

分布式数据库的能力将向混合负载发展
企业级应用的业务场景通常可以分为联机交易和实时分析两种,通常称为 OLTP 和 OLAP 的业务应用,由于是不同的应用场景,大型企业往往会选择多款数据库产品分别支持。这种组合式的解决方案要求数据在不同产品间进行流转,数据的同步过程就带来了时间延迟和数据不一致的风险,而且还会产生冗余数据,成本开销被迫提高,这在一定程度上限制了企业的发展。
HTAP(混合事务/分析处理),是近年来提出的一种新兴的应用框架,旨在打破事务处理和分析之间“壁垒”。未来分布式数据库应具备混合负载能力,即在支持高并发、事务性请求的同时,也对分析型的复杂查询提供了良好的支持,实现计算、I/O 资源互不干扰的 OLTP/OLAP 混合负载管理,提供高性能并行执行计算,充分释放资源,进一步提升系统稳定性。并且可以灵活配置两种负载的资源占比,使得在线交易和分析互不影响,一站式地解决企业级应用的各种需求,从而大幅度降低成本,同时提高了企业决策的效率。

分布式数据库的场景将向云化发展
全球知名咨询公司 Gartner 指出,“到 2022 年,75% 的数据库将被部署或迁移到云平台,只有 5% 的数据库会考虑本地部署。”云化无疑代表了未来,当前,云已经成为中小型企业和互联网公司进行数字化转型的首选IT架构,在传统行业,云的使用度也在逐步攀升。
在此趋势下,数据库也加速了与云环境融合。分布式数据库可以将传统部署和公有云资源有机结合,有效解决私有部署灵活度低,成本过高的问题。多云支持具备快速部署、快速销毁、前期投入低等特点。利用公有云资源能够低成本实现容灾和算力扩展。另外,部署灵活特性意味着不被特定硬件和服务绑定,能够做到机房部署,任意公有云部署,甚至集群内跨多基础设施的混合云,多云部署。
因此,在数据库产品设计层面要充分适配云环境、兼容更多云技术,从而添加更多资源管控、灵活购买、多部署形态等云化方面的能力。面对未来越来越多的用户选择业务上云,企业如何在云原生架构下使用数据库以及提升自己跨云数据管理的能力,就成为必须要思考的问题。

分布式数据库的高可用能力不断在提升
提高分布式数据库的可用性包括了容灾能力建设及可靠性建设。在容灾方面,传统的高可用容灾方案依赖操作系统、存储、数据库等多组件整合分级实现,与业务自身应用配合度低,容灾切换要求高、难度大,风险难以估计,亟需变革升级。在可靠性方面,由于各行业迅猛发展和信息量爆发式增长的现状对数据库的高可用能力要求更高,7×24 小时的服务不中断和数据零丢失往往超出了传统数据库可以承受的能力,同时应对的成本也十分高昂。因此,未来分布式数据库应采取更好的方案来提升其高可用能力。

分布式数据库对数据一致性的支持将日臻完善
并且,数据一致性不仅指在事务发生时的数据一致性,还需要考虑到主备副本之间、集群之间的数据一致性,以及是否有类似区块链似的校验,具备防篡改的能力和应对磁盘静默错误的能力。目前,从数据库行业看,不论是 Oracle、MySQL 还是其他大多数数据库都没有校验主备副本之间的数据一致性。传统数据库技术面临巨大挑战,无法有效保障数据一致性。
因而,在数据服务场景越发多样化的趋势下,对分布式数据库所具备的数据一致性级别要求将会越来越高。当前支持跨区域的数据一致性只是基本,随着微服务的广泛应用,还需要分布式数据库能够支持跨集群、跨表分区、跨数据块的数据一致性。

分布式数据库的生态建设亟需推动
而分布式数据库生态建设的核心,便是开源的思想。开源是做基础软件的必经之路,也是社会组织分工的一种新形式和新趋势,开源社区本身就是基础软件商业化当中重要的一环。分布式数据库之所以需要开源,是因为需要更多人去理解和使用,使用和为其贡献代码的人越多,才能越有助于构建出一个完整和健康的生态。
因此,开源生态建设既是企业商业布局的利器,也是促进技术发展和推广的重要手段。当更多的分布式数据库厂商通过开源方式将技术共享给开发者、社区、合作伙伴进而推进共建生态环境时,分布式数据库将会步入快速高品质迭代的大道,提升产品质量,扩大品牌力,吸引更多、更广的用户群体,为分布式数据库的推广与发展,起到跨越式的推动作用。

分布式数据库需要支持异构芯片的混合部署
异构计算时代已经到来。所谓异构,即将 CPU、DSP、GPU、ASIC、FPGA 等不同制程架构、不同指令集、不同功能的计算单元,组合起来形成一个混合的计算系统。所谓异构芯片的混合部署,就是在允许异构内核以分离模式运行的同时,集成内核的共享集群逻辑以锁定模式运行。这就在不同的层级上既提供了锁定模式的安全机制,又提供了分离模式的性能。

分布式数据库应支持数据透明加密
行。这就在不同的层级上既提供了锁定模式的安全机制,又提供了分离模式的性能。
未来,数据库要为操作系统、芯片的灰度替换提供支持,而在关键行业及软件领域,数据库还需要提供对异构芯片的支持,从而提升数字化解决方案的严谨性,降低应用风险,分布式数据库也不例外。而对于企业,从成本角度上看,如 A 芯片涨价,企业可选择采购 B 芯片,提升采购自由度的同时,可降低芯片成本;从安全层面上看,如果 A 芯片爆出安全漏洞,企业可随时替换 B 芯片,尤其在核心系统,可以选择安全性更高的芯片,从而保障业务的连续性。
分布式数据库应支持数据透明加密
写在最后
针对当下分布式数据库发展现状,报告还从技术、生态、测评体系及国家政策的角度对分布式数据库提出了几大发展建议:
在核心技术研发上,充分调动产学研用多方力量,协同攻关,解决技术瓶颈问题,持续加强关键核心技术突破,建立面向我国分布式数据库自主技术路线的标准体系。
在打造自主技术体系生态方面,我国正在构建以内循环为主,国内国际双循环相互促进的新格局。我们应当抓住这次以外力促进提升内功的机会,转变思维,从“模仿跟随”走向“创新创造”。
在建立专有测评体系上,从单一评价转向综合评估,以性能评价转向多维度能力评估体系。既包括数据库的性能指标,同时也包括数据库与应用系统的适配能力评价,数据库的安全性等。要加大国内外开源发展趋势研究,探索建立我国自主开源社区和开源治理模式。
在政策与顶层设计引导上,建议加强适当的政策引导,充分利用好数据库以及基础软件领域的创新中心、适配基地及重点实验室等机构,加强供需双方的产用协同,形成良性的问题反馈机制,共同解决一些共性的技术和产品问题,逐步打磨优秀的分布式数据库产品。




