权威市场研究机构Gartner预测,中国数据库行业将加速增长并逐步向云端迁移。未来四年,中国数据库行业向公有云迁移的速度将超过全球平均水平。2022年云数据库营收数据将占据数据库整体市场的半数以上。根据IDC报告显示,未来四年中国数据库行业向公有云迁移的速度甚至会超越美国。2021全年中国公有云关系型数据库规模达15.4亿美元,同比增长49%。在云数据库时代到来之际,引领中国云数据库创新的阿里云,再次做好了持续领跑的卡位。
阿里云预测数据库整体将向“四化”方向发展:云原生化(资源解耦、Serverless化)、平台化(基于云构建数据平台能力、OpenAPI标准化)、一体化(处理分析一体化、离在线一体化、集中分布一体化、多模处理一体化)、智能化(AI for DB简化运维、In-DB ML挖掘数据价值)。
一、云原生化
从早期的资源解耦,到现在的无服务化(Serverless)都是云原生化的重要体现。历经十年的发展,目前阿里云已进入 " 全面云原生深度用云 " 阶段。全面云化的同时,阿里云数据库与新型软硬件充分融合,例如面向倚天710、CIPU、飞天操作系统等深度优化,性价比提升达到30%以上,单位算力功耗降低60%以上。数据库云化深度赋能用户数智转型能力,驱动云上用户从资源消耗向能力获取转变,加速数据业务上云;推动资源解耦、资源池化、Serverless等核心能力真正转化为用户的价值。
数据库云原生化最显著的技术架构特征是将一体运行的数据库模块进行拆解。云原生数据库是通过计算存储分离,使用分布式共享云存储替代本地存储;并采用物理复制技术,解决传统云上托管RDS的一写多读架构带来的存储无法扩展、binlog复制造成读延迟大的问题,典型代表为PolarDB云原生数据库。PolarDB充分利用计算、内存、存储三层解耦和Serverless相关技术,可实现秒级弹性伸缩(2秒内节点内变配,0~1000核全场景无感秒级弹性),集群内保障数据全局强一致且性能线性增长,对比传统架构Serverless 成本再降低60%。PolarDB还利用功能节点(多写节点、分析节点、内存节点)快速转换能力支持多态,满足按需架构部署,可实现跨机,跨区,跨域等多种模式的数据一体化,满足全球部署以及冷热分离能力。
对于OLAP数据库,存储计算分离、资源归一化同样是云原生、Serverless化的基础,典型代表为阿里云AnalyticDB(以下简称ADB)。在此基础上,ADB引入分布式或者单机Cache解决带宽的问题;通过计算算子( Shuffle、Scan)分离,读写负载分离,保证性能稳定。对于Meta、负载均衡、接入层等非计算存储资源进行池化,配合智能化的资源分配策略,实现按需计费及按财务预测计费等,帮助用户最大化降成本。同时利用多云、多租户解决超大用户的资源应用效率提升问题。
云数据库要实现Serverless、按需弹性、按量计费能力,需要有底层的支撑平台来提供精细化的资源调度能力。为了支撑Serverless产品形态,阿里云数据库的云原生管控DBaaS在底层实现了实例CPU、内存的实时(最快至2秒内)弹性能力;同时,为了实现跨云、跨平台的统一资源调度,DBaaS的底层资源调度技术构建了统一化资源调度和交付平台,实现基于Cgroup、Docker、Pod运行态上物理机和云原生资源的统一化资源调度和交付的平台能力。
二、平台化
阿里云数据库的全新品牌 “瑶池”涵括关系型数据库、NoSQL数据库、分析型数据库、数据库生态工具等版块,包含PolarDB、RDS、ADB、Lindorm、MongoDB、DMS等产品家族,为企业提供覆盖实时处理与存储、分析和发现、数据开发与治理的一站式数据管理与服务。数据库发展到今天,必须基于云平台构建具备一站式数据管理与服务能力的数据库产品矩阵,才会有生命力和未来,阿里云数据库平台化的核心就是帮助客户减少业务烟囱。
为了应对数据管理服务多样性,阿里云数据库结合云平台,构筑了一站式的数据管理服务能力,一站式在线数据管理平台带来的最大变化是企业能够用数据库的方式进行大数据量的管理。DMS统一管理数据库和数据仓库,让数据自由流动。与传统数据集成不同,DMS可以在源端数据库DDL或扩缩容等运维变更对链路无感知,并且内置ETL能力缩短数据链路,同时还可通过跨库查询将源端数据库的表直接作为数仓ODS层参与计算,免去数据物理搬迁的问题,真正实现按需建仓、敏捷分析。DMS还支持灵活的任务编排和数据开发、报表展示。
(2)可观测性
可观测性,随着云原生方向演进,平台组件服务化后,整体业务监控运维和服务调用关系复杂化,阿里云数据库结合阿里云基础设施,基于全球可观测性标准,构建了一整套完善的可观测性方案。通过自动埋点机制,对现有代码库进行无侵入式埋点,最大限度地减少对业务代码的改动。
OpenAPI是云服务开放的重要窗口,没有OpenAPI的云服务将很难被客户的系统所集成,既影响了用户体验,也制约了云厂商本身的发展。阿里云数据库制定了一系列OpenAPI规范,与国际标准看齐,统一思路来解决各产品线之间API设计标准不一,风格混乱,开发不足、不完整,定义以及文档描述不够清晰等。
在软硬协同方面,阿里云PolarDB采用了领先的硬件技术,包括使用先进的3DXpoint存储介质的Optane存储卡、NVMe SSD和RoCE RDMA网络。同时面向新硬件实现了软硬一体优化,打造了贯穿整个IO链条各个层次的深度优化软件栈,是云厂商中第一个基于这些先进硬件一体化的存储引擎。如PolarDB采用了Alibaba自研先进的Aliflash V5 SMART-SSD,可有效卸载数据压缩、加解密等CPU计算负载,提供高性能的透明数据访问,降低软件适配工作量。
云平台安全对于用户至关重要,全加密数据库是体现数据库安全能力的关键技术。阿里云在全加密数据库领域属于业界第一梯队,是业界唯一具备跨产品(包括PolarDB、RDS、AnalyticDB)和多TEE架构(包括Intel SGX、自研FPGA神盾卡、Dragonfly Enclave)全加密特性的云厂商,已实现商业化输出。其中自研的领先技术发表于VLDB、SIGMOD等数据库领域顶级学术会议,并获得了IEEE ICDCS 2020国际分布式计算与系统会议全场唯一的最佳论文奖。在可信存储领域,具备多用户数据可验证能力,通过中心化架构保证了系统的高性能,该特性也已集成至阿里云自研数据库产品Lindorm中。
三、一体化
近年来,数据库领域出现诸多“一体化”概念,如“湖仓一体”、“流批一体”、“存算一体”、“处理分析一体化HTAP”等等,其中“存算分离”的分布式数据库架构已经成为云原生数据库架构事实标准。对于“集中分布一体化”,阿里巴巴集团副总裁、阿里云智能数据库事业部总负责人李飞飞表示,“我们的客户并非是0或1选择,他们需要的是平滑地从集中式到分布式的过渡,根据业务场景和业务负载,可以自动的在集中式和分布式之间进行切换,业务和客户不需要再做痛苦的选择。”目前,阿里云在事务处理和计算分析一体化、集中分布一体化、离在线一体化、多模数据处理一体化、多引擎融合一体化等方面有诸多创新,取得了很好的应用效果。
离线的大数据数据仓库与在线的分析型数据库数据仓库融合,我们称之为离在线一体化。近年来随着在线的数据仓库(如阿里云的ADB)Serverless能力提升,扩展能力大幅提升,利用OSS等廉价存储实现低成本化,在保证在线处理能力基础上,集成离线的大数据数据仓库能力,实现一体化融合。在线数据仓库从存储与计算独享节点并行处理以在线查询为主的模式发展为支持离线ETL、在线查询的云原生离在线一体化数据仓库,可以一体化解决数据仓库ODS、DWS、ADS等各层的清洗、查询需求,做到从业务数据库与埋点同步到离在线数据仓库后,一体化满足客户数据业务需求。
集中式和分布式结合架构,将shared-storage/shared-everything架构(共享存储/共享状态)与shared-nothing(无共享架构)相结合,可兼顾大多数场景下OLTP的高并发处理能力,并支持跨Shard数据分片的分布式处理能力。阿里云云原生分布式数据库PolarDB在共享存储架构基础上,混合存储层面在云原生共享存储基础上,引入弹性并行计算技术,满足复杂查询的线性扩展性要求。最终,PolarDB通过分布式、混合存储、智能调度等多项技术,即可以满足业务在单个数据库实例内部实现混合事务分析处理(HTAP)的诉求,也可以扩展为多个实例的分布式架构实现更大规模数据的读写能力。
在数据密集性场景中,业务往往需要同时处理结构化、半结构化、非结构化多种数据,而传统使用多种数据库组合解决的方式,存在技术架构复杂、学习成本高、资源碎片化、运维困难等痛点。阿里云云原生多模数据库Lindorm,在统一的分布式文件系统之上,重点研发了多模一体化存储和处理能力,其能够同时支持宽表、时序、流、对象、时空等多种数据模型,并支持使用统一视图和SQL访问进行数据管理,可以大幅提升业务存查多种结构数据的效率。
2014年Gartner在报告中第一次提出混合事务分析处理(HTAP),以打破OLTP和OLAP之间的隔阂,既可以应用于事务型数据库场景,亦可以应用于分析型数据库场景,实现实时业务决策。近年为满足混合事务分析处理(HTAP)的述求,HTAP数据库应运而生,OLTP和OLAP数据库均通过弥补其不足,实现HTAP能力,但较多场景下,OLTP和OLAP从架构设计层面会存在“鱼与熊掌不能兼得”的情况,只能通过损失性能或其他能力实现HTAP兼容。今年AWS reinvent 2022亚马逊利用Aurora和Redshift结合,实现跨产品HTAP能力,用户层面实现统一入口,实现无感HTAP数据库融合,带来全新HTAP体验。Oracle也退出了OLTP和OLAP数据库融合一体化方案,国内厂商阿里云数据库利用PolarDB和ADB实现数据库融合一体化,给用户带来极致性能,无感HTAP一体化体验,提供多引擎融合同步查询,统一计费等能力。
四、智能化
智能化的范畴很大,阿里云数据库强调将智能化与“一站式数据管理与服务”融合:一是融合AI能力的数据库自治服务,提升运维效率与体验;二是数据库内置机器学习功能,无需移动数据即可进行模型训练、生成推理和预测,目标是让数据库“更好用“。围绕上述方向,以功能,运维和内核的智能化为手段,结合分布式系统的最新进展,通过不断技术创新,呈现给用户智能化的数据库,让用户解放脑力与体力,轻装上阵,“八仙过海,各显神通”。
(1)AI for DB
AI for DB的代表产品为数据库自治,目标是简化数据库的运维。自治技术基于全量SQL的大数据能力,深度融合人工智能和专家经验,形成可观测与可控制的自闭环。实现实时异常检测、案例中心、异常自愈、自动优化、智能调参、自动弹性、智能压测等自治能力。目前已经基本实现主流引擎全覆盖(关系型、NoSQL),覆盖度业界领先,并具备差异化优势。
DB for AI的产品方向为In-DB Machine Learning,目标为挖掘数据价值。精选和数据库应用紧密相关的AI场景,把相应的AI支持作为数据库内置服务能力,统一且简化数据和模型的存储,AI的运维管理和服务。阿里云目前已支持的产品形态包括PolarDB for AI和Lindorm in-DB时序分析,利用数据库引擎内置SQL语法支持,SQL抽象屏蔽繁杂数据流转过程等技术,满足客户日益增长的数据价值挖掘需求。




