GBASE南大通用数据分布式存储
列存和行列混存
数据在磁盘中按照列的方式进行组织和物理存储。面对海量数据分析的磁盘 I/O 瓶
颈,分析型数据库把表数据按列的方式存储,列存储架构对查询、统计和分析类操
作具备天然的优势。其优势体现在以下几个方面:
降低 I/O
只有访问查询所涉及的列才会产生磁盘 I/O,查询中没有涉及的列不需要访问也不GBase 8a MPP Cluster 产品手册 2 产品概述
产生磁盘 I/O。
高压缩比
压缩比可以达到 2 ~ 20 倍。
支持行列混存
GBase 8a MPP Cluster 支持行列混存。对于列存储的集群架构,当操作涉及的列数
较多,访问的数据记录非常离散时,会造成大量的离散 I/O。行列混存功能通过存
储冗余行的信息,提高磁盘 I/O 性能。
GBASE南大通用分布式存储
GBase 8a MPP Cluster 可处理 PB 级以上的结构化数据,对于大表数据可采用随机
数据存储分布策略模式或哈希数据存储分布策略模式。用户可以按照业务场景的需
求,选择合适的数据存储分布策略,从而在性能、可靠性和灵活性间获得最佳平衡
方案。
随机数据存储分布策略模式
随机数据存储分布策略模式是指数据库创建随机分布的分布表,在进行数据入库时
数据将随机均等的分布到各个数据节点上。
哈希数据存储分布策略模式
哈希数据存储分布策略模式是指在数据入库时对原始数据中的每条数据按指定的
哈希分布列进行处理,处理后的数据按照哈希值装入特定的哈希桶中,每个哈希桶
对应一个集群数据节点。这样每个节点所得到的数据就都具有了某种共同特征(指
定列都具有相同的哈希值),在查询时优化引擎可以根据这些共同特征对查询计划
进行优化,以达到缩短查询时间的目的。
GBASE南大通用虚拟集群
一套虚拟集群中可包含一个或多个 VC。每个 VC 是一个物理集群,各 VC 由
同一套 Coordinator Cluster 管理,各 VC 在虚拟集群范围内独立运行,共享统
一的入口;每个虚拟集群(VC)由一组 Data 节点组成,所有虚拟集群由一套 Co
ordinator Cluster 控制。每个虚拟集群独立运行互不影响;
虚拟集群技术提供的统一访问入口能够实现对仓库和集群的统一访问。对应用
来说,应用对多个物理集群的访问是透明的,访问的就是一个统一的集群,但
内部可以根据业务系统把原来的物理集群规划成多个虚拟集群;
权限许可的情况下,各虚拟集群间可以相互访问。
高效压缩
高效透明压缩技术能够按照数据类型和数据分布规律自动选择最优压缩算法,
尽可能减少数据所占的存储空间,降低查询的 I/O 消耗,提升查询性能。可以
文档版本 953(2023-05-10) 南大通用数据技术股份有限公司 29GBase 8a MPP Cluster 产品手册 2 产品概述
设置实例级、表级、列级压缩选项,灵活平衡性能与压缩比的关系,而且压缩
和解压缩过程对用户是透明的;
相较于传统的行存数据库,高效透明压缩技术可以带来约一个数量级的性能提
升。
压缩比可达到 2~20 倍甚至更优,远远高于行存储;
节省 50%-95%的存储空间,大大降低数据处理能耗;
内置多种不同等级的压缩算法;
压缩态下对 I/O 要求大大降低,数据加载和查询性能明显提升。
GBASE南大通用智能索引
智能索引是一种粗粒度索引,每 65536 行数据生成一个数据包,每个数据包在
数据入库时自动建立智能索引,包含过滤信息和统计信息,在数据查询时不需
要解包就能得到统计值,可进一步降低 I/O,对复杂查询的优化效果明显。
表中的智能索引自动创建,不需用户手工建立和维护;
智能索引本身占空间很少,扩展性很好,建立智能索引后存储空间几乎无
膨胀;
智能索引建立的速度快,后面的数据包建立智能索引的速度不会受到前面
数据包的影响。
与传统数据库索引技术相比,智能索引建立在数据包上(粗粒度索引),并且
每个字段均自动建有索引,而传统索引建立在每行数据上(细粒度索引),因
此访问智能索引要比访问传统索引需要更少的 I/O(几万分之一)。同时,智
能索引所占空间大约是数据的 1%,而传统数据库索引则要占到数据的 20%~
50%。
GBASE南大通用大规模并行计算
GBase 8a MPP Cluster 单节点并行技术
GBase 8a MPP Cluster 针对数据加载和数据查询实现了自动高效的并行处理
技术,充分利用 SMP 多核 CPU 资源并行处理海量数据。同时 GBase 8a MPP
Cluster 具有智能算法适配功能。例如灵活的 JOIN 处理方式,支持 HASH J
OIN、NEST-LOOP JOIN、MERGE JOIN 等。针对不同的数据分布及特征,会
智能的选择不同算法进行处理。这也充分解决各种行业应用中的 JOIN 操作带
来的性能压力,特别是 10 个以上的多表 JOIN 操作。
GBase 8a MPP Cluster 技术的主要特点:
分布式并行计划器,结合集群特征,对算子进行分布式处理,生成适合的
分布式执行计划;
文档版本 953(2023-05-10) 南大通用数据技术股份有限公司 30GBase 8a MPP Cluster 产品手册 2 产品概述
通过基于规则和基于代价的优化,保证执行计划的高效;
调度器采用异步 I/O 等技术,确保调度的高效和可靠。
2.4.2 工作负载管理
集群接口驱动提供负载均衡
集群接口驱动可以有效实现对上层应用请求的负载进行均衡。应用层发送请求给相
应节点,节点完成 SQL 解析并生成执行计划,协调集群相关节点并发参与计算和
处理,提高了整个集群的并发度,充分发挥了集群性能。
多租户资源管理
GBase 8a MPP Cluster 可以通过虚拟集群技术实现租户间的物理或者逻辑资源的
隔离。
GBase 8a MPP Cluster 下每个节点内的资源管理
GBase 8a MPP Cluster 下每个节点可以对自身内部的 CPU、内存、磁盘空间
和 I/O 资源进行配置和管理,其中 CPU 可以实现对受控 SQL 使用 CPU 优先级
和百分比控制,以及 SQL 并发数及并行度的管理;内存可以实现对受控 SQL
算子 buffer 使用上限的控制;I/O 可以实现对受控 SQL 磁盘读写速率上限的控
制;以及对磁盘空间使用的管控。
GBase 8a MPP Cluster 虚拟集群的整体资源管控
在虚拟集群内,通过资源管理和资源组实现了不同应用和用户的资源配额及查
询优先级的灵活配置,同时在完善的权限授权管理机制下,使得不同的应用和
任务可以同时运行在一个集群中,又相互隔离。
在线扩容
GBase 8a MPP Cluster 支持集群数据节点的在线扩容和在线缩容,执行效率更高,
对业务的影响更小。GBase 8a MPP Cluster 能够通过增加 data 节点,对系统的计
算和存储能力进行扩容,并且可以灵活的对扩展过程中的状态进行管理与控制,支
持暂停、恢复、取消等等;系统支持在线扩容,扩容后性能近似线性提升,无需中
断当前系统的运行,且支持一次扩展多个节点;可支持实例级、库级和表级等多级
别的扩展方式。
GBase 8a MPP Cluster 具备在线扩容能力:
在线动态扩展集群节点;
在线动态扩展数据节点;
执行调度节点和数据计算节点可以按需独立扩展。
文档版本 953(2023-05-10) 南大通用数据技术股份有限公司 31GBase 8a MPP Cluster 产品手册 2 产品概述
文档版本 953(2023-05-10) 南大通用数据技术股份有限公司 32
2.4.3 数据安全性
数据加密
GBase 8a MPP Cluster 拥有数据库落地数据的软加密功能,可满足用户的安全需求,
提高系统的安全性。数据加密实现表级或者列级不同粒度的加密要求。数据加密支
持如下特性:
支持加密关键字 encrypt 建表;
支持表级或者列级不同粒度的加密要求;
支持表级加密属性的查询;
支持密钥证书管理。
数据脱敏
GBase 8a MPP Cluster 拥有动态数据脱敏功能,开发人员和数据库管理员能够
控制敏感数据的暴露程度,在数据库层面生成脱敏数据,简化了数据库应用层
的安全设计和编码;
动态数据脱敏不会真正改动表中存储的实际数据,只是在查询的时候应用该特
性控制查询返回的数据,动态数据脱敏支持默认脱敏 default、随机脱敏 rando
m、自定义脱敏 partial、哈希脱敏 sha 和指定位置脱敏 keymask 五种数据脱敏
函数。
2.4.4 数据可靠性
数据可靠性
GBase 8a MPP Cluster 的多分片和多副本机制
GBase 8a MPP Cluster 通过多副本冗余机制来保证集群的高可用特性。集群中
的表数据被切分为多个分片并存储在不同节点上,每个分片可提供 1 个或多个
副本数据冗余,集群副本数和分片数可进行灵活配置,可以配置副本分片到集
群的任意一个节点上,并且可以根据配置为主机性能高和存储空间大的节点分
配更多的主本和副本。主副本间会自动数据同步。
•
多副本冗余机制可以降低节点故障的木桶效应;
•
数据节点发生故障时,系统自动切换至其副本数据节点进行工作,保证后
续业务连续性;
•
支持双活集群部署。GBase 8a MPP Cluster 产品手册 2 产品概述
GBase 8a MPP Cluster 的自动切换机制
节点故障对应用透明,不会中断正在执行的业务,可以将异常服务器的负载均
匀分布在副本所在的几台正常的服务器上,一旦故障节点服务恢复正常,GBa
se 8a MPP Cluster 故障节点会从其他完整副本节点上进行同步来恢复该节点
数据,在恢复完成后立即提供服务,这样就最大限度防止由于故障切换后木桶
效应而引起的性能抖动。
备份恢复
GBase 8a MPP Cluster 提供专用的备份恢复工具(gcrcman),让用户可以方便地对整
个集群中的数据进行备份和恢复,防止数据丢失或损坏对用户业务造成不利影响,
保障在异常情况下能够快速恢复系统。备份恢复工具随集群的安装自动安装在
$GCLUSTER_BASE/server/bin 目录下。
GBase 8a MPP Cluster 根据用户业务的需要提供集群级、库级、表级的全量备
份、增量备份、全量恢复和增量恢复功能。
GBase 8a MPP Cluster 也支持与 Hadoop 之间进行数据备份/恢复,将库内数据
备份到 Hadoop 中,或将 Hadoop 内数据文件恢复到库内。
2.4.5 数据加载及集成
2.4.5.1 数据加载
集群加载具备如下特性和优点:
与集群高度集成,无需额外部署;
支持 SQL 及外部工具的加载方式,面向用户的 SQL 接口方式使集群加载与 D
ML 等数据操作方式统一;
支持单表多数据源并行加载,支持多加载机对单表的并行加载,最大程度优化
加载性能;
支持从通用数据服务器远程读取数据,支持 FTP/SFTP/HTTP/HTTPS/HDFS/Ka
fka 等多种文件传输协议;
支持普通文本、gzip 压缩、snappy 压缩和 lzo 压缩等多种格式数据文件加载;
支持普通文本模式、定长文本模式和宽松模式加载;
支持错误数据溯源功能,可以准确定位错误数据在源数据文件中的位置;
支持实时查询加载进度和状态;
加载性能可以随着集群规模的扩展而持续提升。




