GBase 8a MPP Cluster 企业级增强特性之数据分布式存储

原创 manhuai 2022-04-26

277

列存和行列混存

数据在磁盘中按照列的方式进行组织和物理存储。列存储架构对查询、统计和分析

类操作具备天然的优势。面对海量数据分析的 I/O 瓶颈，分析型数据库把表数据按

列的方式存储，其优势体现在以下几个方面。

1.降低 I/O

只有访问查询所涉及的列产生 I/O，查询没有涉及的列不需要访问，不产生 I/O。

2.高压缩比

压缩比可以达到 2 ~ 20 倍以上。

3.支持行列混存

GBase 8a MPP Cluster 支持行列混存。列存储的集群架构，当列数较多，访问的数

据记录又非常离散时，会造成大量的离散 I/O，行列混存功能，即通过存储冗余行

的信息，提高 I/O 性能。DML 语句会自动维护行存列，集群也会自动判断某场景

是否需要使用行存数据。

分布式存储

GBase 8a MPP Cluster 可处理 PB 级别以上的结构化数据，对于大表数据可以采用

分布存储模式，分布策略有随机分布或哈希分布两种方式进行数据分布式存储。用

户可以按照业务场景的需求，选择合适的分布策略，从而在性能、可靠性和灵活性

间获得最佳匹配。

1.随机分布模式

随机分布模式是指数据库创建随机分布的分布表，在对其进行加载时数据随机均等

的分布到数据集群的各个节点上。

2.哈希分布模式

哈希模式是指在加载时对原始数据中的每条数据中指定的哈希列进行处理，处理后

的数据按照哈希值装入特定的哈希桶中，每个哈希桶对应一个集群数据节点。这样

每个节点所得到的数据就都具有了某种共同特征（指定列都具有相同的哈希值），

在查询时优化引擎可以根据这些共同特征对查询计划进行优化，以达到缩短查询时

间的目的。

虚拟集群

 虚拟集群以大规模集群为基础开发，一个集群中包含多个 VC。每个 VC 是一个物

理集群，该虚拟集群下的所有物理集群由同一套 coordinator 节点控制，各 VC 在根

集群范围内独立运行，共享统一的入口；

 虚拟集群技术提供的统一访问入口能够实现对仓库和集市的统一访问，对应用来说

应用对多个物理集群的访问是透明的，访问的就是一个统一的集群，但内部可以根据

业务系统把原来的物理集群规划成多个虚拟集群；

 权限许可的情况下，各虚拟集群间可以相互访问。

高效压缩

 高效透明压缩技术能够按照数据类型和数据分布规律自动选择最优压缩算法，

尽可能减少数据所占的存储空间，降低查询的 I/O 消耗，提升查询性能。并设

置了库级，表级，列级压缩选项，灵活平衡性能与压缩比的关系，而且压缩与

解压缩过程对用户是透明的。

 从 I/O 资源消耗节约的角度来看，对 I/O 是主要瓶颈的分析系统而言，相较

于传统的行式数据库，高效透明压缩技术可以带来约一个数量级的性能提升。

• 压缩比可达到 2~20 倍甚至更优，远远高于行存储；

• 节省 50%-90%的存储空间，大大降低数据处理能耗；

• 内置数十种不同等级的压缩算法；

• 压缩态下对 I/O 要求大大降低，数据加载和查询性能明显提升。

智能索引

 智能索引是一种粗粒度索引，每 65536 行数据打成一个 DC 包，每个数据包在

加载数据时自动建立智能索引，包含过滤信息和统计信息，在数据查询时不需

要解包就能得到统计值，可进一步降低 I/O，对复杂查询的优化效果明显。

• 表中的索引自动创建，不需用户手工建立和维护；

• 索引本身占空间很少，扩展性很好，建立索引后无膨胀；

• 建立索引的速度快，后续的数据包建立索引的速度不会受到前面数据包的

影响。

 与传统数据库索引技术相比，智能索引建立在数据包上（粗粒度索引），并且

每个字段均自动建有索引，而传统索引建立在每行数据上（细粒度索引），因

此访问智能索引要比访问传统索引需要更少的 I/O（几万分之一）。同时，智

能索引所占空间大约是数据的百分之一，而传统数据库索引则要占到数据的 2

0~ 50%。

大规模并行计算

 GBase 8a MPP Cluster 下单节点并行技术 GBase 8a MPP Cluster 针对数据加

载和数据查询实现了自动技术，充分利用 SMP 多核 CPU 资源并行处理海量数据。

同时 Cluster 具有智能的算法适配功能。例如灵活的 Join 处理方式in、Nest-loop

Join、Merge Join 等。针对不同的数据分布及特择不同算法进行处理。这也充分

解决各种行业应用中 Join 操作以上的多表 Join 操作带来的性能压力。

 GBase 8a MPP Cluster 采用 MPP 技术的主要特点 • 分布式并行计划器，结合集

群特征，对算子行进分布式处分布式执行计划； • 通过基于规则和基于代价的优化，

保证执行计划的高效； • 调度器采用异步 IO 等技术，确保调度的高效、可靠；

gbase南大通用

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

GBase 8a MPP Cluster 企业级增强特性之数据分布式存储

评论