暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GaussDB 架构(上)

wanglei 2023-03-31
410

GaussDB 是华为公司数据库产品品牌名。华为公司从开始自研数据库至今已经有近 20 年历史,其中经历了早期发展、GaussDB 的诞生和发展、数据库产业化三个阶段。本文简明介绍华为公司自研数据库的历程,并给出一些 GaussDB 的里程碑时间点。GaussDB 的发展历史是中国数据库发展历程的典型案例。GaussDB 以云服务形式提供商业版本,并已在 2020 年中期推出开源数据库产品 openGauss (社区网址为 https://opengauss.org )。

一、GaussDB 发展历史
本节首先概要介绍华为自研数据库的早期发展历史及 GaussDB 的诞生和发展,然后介绍华为高斯数据库三个系列产品: GMDB 内存数据库、GaussDB 100 OLTP 数据库和 GaussDB 200 OLAP 数据库的发展历史。

  1. 概述
    华为公司研究数据库是从满足生产实践出发,从研发用于满足局限场景的较简单架构数据库产品开始,逐步向通用性、可规模商用的数据库产品演进,到 2019 年终于正式发布面向企业客户场景的通用分布式数据库产品,其发展历史如下图所示。

在这里插入图片描述

图 GaussDB 发展历程图

1.1 华为自研数据库的早期发展阶段
华为公司研究和开发数据库技术及产品,最早可追溯到 2001 年。当时,华为公司中央研究院 Dopra 团队为了支撑华为所生产的电信产品 (交换机、路由器等), 启动了内存数据存储组件 DopraDB 的研发,从此开启了华为自研数据库的历程。DopraDB 后来随着业务和组织的切换,成为华为高斯数据库团队的 GMDB V1 系列产品。

2005 年,华为的通信产品需要一个以内存处理为中心的数据库,评估了当时最高性能的内存数据库软件,发现其性能和特性无法满足业务诉求,便启动了 SMDB (Simple Memory DataBase) 的开发。

2008 年,华为核心网产品线需要在产品中使用一款轻量级、小型化的磁盘数据库,于是华为基于 PostgreSQL 开源数据库开发 ProtonDB, 这是华为与开源数据 PostgreSQL 数据库的第一次亲密接触。

1.2 GaussDB 的诞生和发展阶段
2011 年 “数字洪水” 即将到来,华为铸造 “方舟” 应对,组建了 2012 实验室。华为公司认为在数字洪水时代,ICT (Information and Communications Technology, 信息和通信技术) 软件技术栈中数据库是不可缺少的关键技术,因此将原来分散在各个产品线的数据库团队及业务重新组合,在 2012 实验室中央软件院下成立了高斯部,负责华为公司数据库产品和技术的研发。高斯部得名于纪念大数学家高斯 (Gauss)。

高斯部的数据库产品研发历史按照场景和产品特点可分为三个系列。

GMDB (内存数据库);
GaussDB 100 OLTP 数据库;
GaussDB 200 OLAP 数据库。
1.3 数据库产业化阶段
随着华为在 2019 年对业界正式发布高斯数据库,华为自研数据库进入了第三阶段,即数据库产业化阶段。华为高斯数据库后续的规划主要围绕如下方面展开。

  1. 数据库生态
    作为一款通用性、规模商用的数据库产品,生态是重中之重,华为将围绕两个方向来解决数据库生态问题。

技术上采取 “云化 + 自动化” 方案。通过数据库运行基础设施的云化将 DBA (数据库管理员) 和运维人员的日常工作自动化,解决如补丁、升级、故障检测及修复等工作带来的开销。传统数据库随着业务负载变化越跑越慢的问题,依赖 DBA 监控和优化来解决。而通过在数据库内部引入 AI 算法,实现免 DBA 自动数据优化,将进一步降低对人工的依赖。
商业上开展与数据库周边生态伙伴的对接与认证,解决开发者 / DBA 数据难获取、应用难对接等生态难题,减少企业客户使用华为高斯数据库面临的后顾之忧。 数据库产业生态全景如下图所示。
在这里插入图片描述

图 数据库产业生态全景

  1. 技术竞争力
    数据库作为 “软件皇冠上的明珠”, 其技术含量十分高,因此要想在市场上击败竞争对手,必须持之以恒地在关键技术上进行大规模投资。华为高斯数据库将在如下方向构筑竞争力。

分布式。构筑世界领先的分布式事务能力和跨 DC (Data Center, 数据中心) 高可用能力,解决传统关系数据库的扩展性、可用性不足等瓶颈。
云化架构。未来 10 年云数据库将成为市场主流,华为高斯数据库需要构筑满足公有云、私有云和混合云场景的云化架构,满足各种企业场景的云数据库诉求。
混合负载。过去由于数据库性能不足,架构缺乏隔离性,一个数据库实例难以在满足 SLA (Service Level Agreement, 服务水平协议) 前提下,同时支撑不同业务负载 (交易型、分析型) 的运行。随着硬件性能的提升和新数据架构理论的创新,在一套数据库中运行多种负载已经成为行业趋势,这不但简化了系统部署、消除了数据复制或搬迁带来的数据一致性问题,同时也提升了系统的可靠性和实时性。
多模异构。传统数据库围绕关系数据进行管理,随着移动互联网、IoT (Internet of Things, 物联网)、人工智能的普及应用,新类型数据 (时序、图、图像等) 成为接下来十年数据库系统主要的管理类型,这需要支持多模数据管理的新型数据库。通用处理器随着晶体管制程逐步走到极限,而异构加速器 (FPGA/GPU/NPU 等) 大放异彩,在 AI (人工智能) 等场景大量使用,如何通过改造优化数据库架构,实现充分利用 “通用处理器 + 异构加速器” 算力优势,是高斯数据库重点发展方向之一。
AI+DB。2010 年起随着大数据量和大计算量的普及,AI 算法精度和适用范围足以支撑在特定场景 (如数据库参数调优、SQL 执行优化等) 下解决问题;另一方面,随着深度神经网络的普及化,对过去无法有效处理的图像、语音、文本等非结构化数据,已经能很好地从中抽取结构化信息,如何将其用在数据库中解决非结构化数据的高效管理也成为当前研究的热点。
2. GMDB 内存数据库历史
2012 年,华为高斯部成立后,结合电信软件公司在 SMDB 长期使用中面临的 “开发效率低、数据一致性弱” 等关键痛点,立项开发了高斯部成立后的第一款产品:GMDB V2 系列。GMDB V2 与 GMDB V1 最大差别在于,它是一款支持 SQL / 关系模型和 ACID 能力的全功能内存数据库。GMDB V2 最终于 2012 年起在融合计费系统中成功商用,到 2018 年,基于 GMDB V2 内存数据库产品的融合计费系统所支撑的用户数超 20 亿。

2016 年起,华为高斯部面向核心网产品线 NFV (Network Function Virtualization, 网络功能虚拟化) 场景,启动分布式内存数据库产品 GMDB V3 系列的研发。2018 年 GMDB 在 NFV 首次商用,并在电信行业的 NFV 场景第一个实现了灰度升级 (意指不停止业务实现服务在线升级)、在线补丁升级等关键能力。

  1. GaussDB 100 OLTP 数据库历史
    2012 年起,华为高斯部启动了 GaussDB 100 的研究工作。GaussDB 100 早期版本 V1 系列是基于 PostgreSQL V8 发展而来的,主要是面向华为公司内各产品线在操作管理类系统中所使用的 OLTP 类型磁盘数据库场景。该系列产品在华为公司大量商用。

随着互联网、移动互联网业务的兴起,网络数据量和业务量均呈现爆炸式增长,传统集中式数据库已经无法满足大容量、高扩展的诉求。2016 年起,华为高斯部启动分布式 OLTP 数据库的研发工作,分布式 OLTP 数据库具备分布式事务强一致、高性能、高扩展、高可用等特点,可以满足金融、电信、能源等主流行业核心业务系统的要求。目前 GaussDB 分布式 OLTP 数据库已针对金融、政府等高端客户商用上线。

  1. GaussDB 200 OLAP 数据库历史
    2012 年,华为高斯部启动了 PteroDB (羽龙) 项目,孵化面向企业数据仓库场景的 MPP 架构 OLAP 数据库。2014 年华为公司成功击败竞争对手进入工商银行总行下一代 EDW (Enterprise Data Warehouse, 企业数据仓库) 联合创新项目。经过工商银行 2 年孵化,GaussDB 200 于 2016 年开始进入商用,逐步替换了友商数据仓库一体机产品。2019 年一季度,工商银行总行最后一台友商数据仓库一体机下线、业务负载全面由 GaussDB 200 承载。

2019 年 5 月 15 日,华为公司正式向业界宣布 GaussDB 品牌,揭开了 GaussDB 产业化的帷幕。

华为高斯部除了数据库产品的研发之外,也将部分技术研究成果发表在 VLDB (International Conference on Very Large Data Bases)、SIGMOD (The ACM SpeciaInterest Group on Management of Data)、ICDE (International Conference on DataEngineering) 等数据库顶级会议中。

华为高斯数据库团队在数据库领域顶级学术会议中所发表的论文 (非全集) VLDB 论文和 SIGMOD 论文如下图所示。

在这里插入图片描述

图 VLDB 论文

在这里插入图片描述

图 SIGMOD 论文

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论