暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GreenplumDB数据库架构

原创 刘群 2023-06-11
275

GreenplumDB数据库架构:
1> MPP无共享架构:主节点master负责协调集群,可扩展节点实例segment(节点独享CPU等资源);
2> 并行的根基是:均匀分布数据到各个数据节点,并行访问与处理;
3> 数据之间交换通过interconnect网络进行;
3> 存储:多级分区。数据均匀分布在各个节点。节点内根据多种规则(时间等)分区,降低扫描量(hash和循环分布);
4> 多态存储:行存储(读列时速度快,删除高效),列存储(适合压缩,列子集查询更快),外部表(历史数据存储);
5> 大规模并行数据加载:
*高速导入导出(主节点不会成为瓶颈,可线性扩展);
*低延迟(无需中间存储,无需额外的数据处理);
*导入、导出到其他产品(文件系统,ETL,Hadoop);
6> 主节点包括:解析器,优化器,调度器,执行器,系统表,分布式事务
*解析器:语法分析,生成解析树;
*优化器:处理解析树,生成查询计划(如何执行查询);
*调度器:发送查询计划给各个segment(分配处理查询需要的集群资源,收集并返回结果给客户端);
*执行器:根据执行计划实际执行SQL;
*系统表:存储数据库,表,字段的元数据,每个节点保存一个拷贝;
*分布式事务:主节点上的分布式事务管理器协调segment上的提交和回滚操作;

在greenplum创建表没有指定分布键时,默认选择hasd分布,分布键选择按照以下规则进行:有主键时,选择主键作为分布键;没有主键使用定义的第一列作为分布键。

最后修改时间:2023-06-17 10:06:37
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论