暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

带你初识华为高斯数据库

爱科技爱金融 2022-01-18
12782

现在,数据被誉为工业社会的“石油”。数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材;本文主要通过对数据库的历史以及背景,并结合项目中用到的华为GaussDB,带大家熟悉华为GaussDB的特性。



数据库的简史

尽管数据无处不在,但很少有人能记录或浏览到完整的数据。直到第一次信息爆炸时代,对人们关于结构化信息的思考产生了长久的影响。数据库的框架和使用也在这个时期被开创出来。1880年美国人口普查,Hollerith发明了分拣机、制表机和记录机,用于记录完整的数据。从1910年到1960年代初期,打卡和制表机制是企业办公的必备条件。通过快速检索打卡信息的机械手段,IBM从此发展壮大起来。直到在二十世纪六十年代中期,随着供应商开始大规模销售,计算机化的物流技术在制造和更广泛的实验室中使用。数据库管理系统(DBMS)的出现满足了用户编组大量数据的需求,成为现代数据库出现的标志。此后关系型数据库也涌现出了像大家熟知的sqlserver、mysql、oracle、DB2等等,关系型数据库通过将数据从访问数据的应用程序中分离出来,使用查询语言来操作信息,通过逻辑运算符高效地执行特定数据的处理,使数据的处理和加工展示更符合业务需求发展。


华为高斯的背景

华为的 Gauss 数据库是基于 PostgreSQL9.2 开发业务应用场景的企业级 AI-Native 分布式数据库;高斯数据库研发始于 2011 年。目前已经开发有三个产品系列,分别是:

  • GaussDB 100:主要以 OLTP 联机事务处理on-line transaction processing 为主;

  • GaussDB 200:以 OLAP 联机分析处理On-Line Analytical Processing为主,兼顾 OATP;       

  • GaussDB 300:以HTAP混合事务和分析处理 Hybrid Transaction and Analytical Process为主。

其中,GaussDB OLTP 数据库拥有业界首创的 Switch Turbo 技术,满足金融场景下的数据库高可用诉求;GaussDB OLAP 数据库可以帮助客户实现 PB 级海量数据高效分析,目前已经广泛应用于金融、运营商、政府等行业;GaussDB HTAP 数据库的多模引擎支持五种数据类型融合处理,包括流、图、空间、文本、结构化,可以解决集中式架构扩展性和性能瓶颈问题,同时分散风险、提升业务连续性。



华为高斯的特点

1

全球首款 AI-Native 数据库


AI原生数据库是GaussDB的主要特点之一。华为将AI引擎内置到GaussDB全系产品中, 使其具备一定的自运维、自管理、自调优、故障自诊断和自愈的能力。

2

异构计算支持 X86、ARM、GPU、NPU


这个也是 Gauss 数据库与其他数据库比较大的不同。目前主流的数据库产品,包括 OracleDB、MySQL、SQL Server 等,基本都是支持 X86 架构。华为数据库对于异构计算的支持,可能是为该数据库未来向更多计算场景的应用做准备。

3

支持行存储和列存储


行存储(Row-based):对于传统的关系型数据库,比如甲骨文的 OracleDB 和 MySQL, IBM 的 DB2、微软的 SQL Server 等,一般都是采用行存储(Row-based)。在基于行式存储的数据库中,数据是按照行数据为基础逻辑存储单元进行存储的,一行中的数据在存储介质中以连续存储形式存在;列式存储(Column-based)是相对于行式存储来说的,新兴的 Hbase、HP Vertica、EMC Greenplum 等分布式数据库均采用列式存储。在基于列式存储的数据库中, 数据是按照列为基础逻辑存储单元进行存储的,一列中的数据在存储介质中以连续存储形式存在。

从存储角度来看,对于列式存储来说,一行数据包含一个列或者多个列,每列有单独一个 cell 来存储数据。而行式存储,则是把一行数据作为一个整体来存储。另外,列式存储天生就是适合压缩,因为同一列里面的数据类型基本是相同。
从查询角度来看,行式存储比较适合随机查询,且关系型数据库(RDBMS)大多提供二级索引,在整行数据的读取上要优于列式存储。但是,行式存储不适合扫描, 这意味着要查询一个范围的数据时行式存储需要扫描整个表。基于以上我们可以看出,GaussDB 兼具了行存储和列存储的优势。

4

易于扩展的架构


高斯数据库无需人工分区或优化,数据加载与访问方式与一般数据库相同;数据分布在所有的并行节点上;每个节点只处理其中一部分数据;所有的节点同时进行并行处理,节点之间完全无共享,无 I/O 冲突,实现最优化的I/O 处理;可增加节点实现存储、查询及加载性能的线性扩展,集群最大可扩展至 2048 个节点。

5

较高性价比


  • 低成本
基于分布式 x86 架构,客户硬件投资成本低。支持标准的 SQL92、SQL99、SQL2003 规范,支持客户应用系统平滑迁移。
  • 高性能
行列混合存储引擎,数据按照最优负载模型选择存储方式,性能更优。支持基于服务等级协议 SLA(Service-Level Agreement)策略的负载管理,保障并发任务的服务质量。支持基于代价的查询优化模型,提升复杂查询性能。分布式、并行化的查询处理模型,充分利用系统计算资源和 IO 资源。支持并行数据导出和导入。
  • 高可靠
硬件级高可靠:磁盘 Raid、交换机堆叠及网卡 bond、不间断电源 UPS(Uninterruptible Power Supply)。软件级高可靠:集群 CM、CN、GTM、DN 实例全方位 HA。数据存储安全可靠:在安全认证的基础上,支持数据在数据库内的加密存储,防止三方人员绕过数据库认证机制直接读取数据文件中的数据。
  • 支持海量数据
集群最大可扩展至 2048 个节点,支撑 PB 级数据管理能力。集群规模按用户需求弹性伸缩,扩展业务不中断,减少用户投资成本。


华为高斯的应用

华为GaussDB 在核心技术上跟传统数据库相比有巨大优势,可以解决很多行业用户的数据处理性能问题,为超大规模数据管理提供高性价比的通用计算平台,并可用于支撑各类数据仓库系统、BI(Business Intelligence)系统和决策支持系统,统一为上层应用的决策分析等提供服务。目前已广泛应用于政府、金融、公共安全、运营商、大企业等行业。

1)金融领域

高斯数仓融合银行业务,以支持银行业多类型数据统一存储和分析,性能大幅提升。对于保险营销行业,能够提升其服务水平,显著提升续保率,交叉拓展率等指标。

2)电子政务

税务大数据:提升纳税人办税效率;提升工作人员办公效率;推动整体涉税服务迭代升级。财务云大数据,打破财政应用系统条块分割,以统一规范的数据标准和数据结构为基础预算编制、绩效监督、综合管理等财政所有业务上云。警务大数据,助力犯罪率下降。


总结

通过以上我们对华为 Gauss 数据库的分析,我们对 Gauss 数据库应该有了一个比较立体的认知和理解; 从发展时间来看,华为的数据库从起步到现在已经有 12 年的时间,目前正处于快速迭 代和应用期。未来的路还很长。从生态体系来看,华为 IT 架构的底层生态已经逐步建立起来,包括芯片、操作系统、数据库等,这些在华为 IT 体系内部是高度耦合的。产品的优化和升级是一条漫漫长路,这也是软件产品的一个特点。当今世界是一个充满着数据的互联网世界,充斥着大量的数据,数据库作为近现代科技领域的重要产物,有着可获取的地位和作用。华为 Gauss 作为国内数据库最稳定的产品之一具有其自身的特性,未来华为Gauss是否能在计算环境的变化中迎来新的产业地位,我们将拭目以待。


本文参考
书籍:《openGauss-数据库核心技术》
网站:未来智库VZKOO.COM
      中国知网https://www.cnki.net/ 《数据库技术的发展现状与趋势研究
文章转载自爱科技爱金融,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论