暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
Greenplum:基于PostgreSQL的分布式数据库内核揭秘.pdf
384
35页
4次
2023-03-21
5墨值下载
Greenplum:基于 PostgreSQL 的分布式
数据库内核揭秘
Greenplum 是最成熟的开源分布式分析型数据库(今年 6 月份预计发布的 Greenplum 6 OLTP
性能大幅提升,将成为一款真正的 HTAP 数据库,评测数据将于近期发布),Gartner 2019 最新
评测显示 Greenplum 在经典数据分析领域位列全球第三,在实时数据分析领域位列并列第四。两
个领域中前十名中唯一一款开源数据库产品。这意味着如果选择一款基于开源的产品,前十名中
别无选择,唯此一款。Gartner 报告原文
那么 Greenplum
分布式
数据库是如何炼成?众所周知 Greenplum 基于 PostgreSQL
PostgreSQL 是最先进的单节点数据库,其相关内核文档、论文资源很多。而有关如何将单节点
PostgreSQL 改造成分布式数据库的资料相对较少。本文从 6 个方面介绍将单节点 PostgreSQL
数据库发展成分布式 MPP 数据库所涉及的主要工作。当然这些仅仅是极简概述,做到企业级产
品化耗资数亿美元,百人规模的数据库尖端人才团队十几年的研发投入结晶而成。
虽然不是必需,然而了解 PostgreSQL 基本内核知识对理解本文中的一些细节有帮助。Bruce
Momjian PPT 是极佳入门资料
1. Greenplum 集群化概述
PostgreSQL 是世界上最先进的单机开源数据库。Greenplum 基于 PostgreSQL,是世界上最先
进的开源 MPP 数据库 (有关 Greenplum 更多资讯请访问 Greenplum 中文社区)。从用户角度来
看,Greenplum 是一个完备的关数据库系统RDBMS)面,多个
PostgreSQL ,这些实例可以访问。为了实多个独立 PostgreSQL 的分工和合
作,呈现给用户一个逻辑的数据库,Greenplum 在不同层面对数据存储、计通信和管理进
了分布式集群化理。Greenplum 虽然是一个集群,然而对用户而它封装了所有分布式的细
节,为用户提了单个逻辑数据库。这种封装极大的解了开发人员和运维
单节点 PostgreSQL 化成集群涉及多个方面的工作,本文主要介绍数据分布、查询
化、执行化、分布式事务、数据洗牌shuffle和管理并 6 个方面。
Greenplum PostgreSQL 之上还添加了大他功能, Append-Optimized 、列存表
外部表、多级分区表、细度资源ORCA 查询优恢复高可用、故障检
故障恢复、集群数据迁移扩容MADlib 器学习算法库、容器执行 UDFPostGIS 展、
GPText 套件监控管理、集成 Kubernetes
下图展示了一个 Greenplum 集群的俯瞰图,其中一个 master 节点,两个 segment 节点,
segment 节点上部署4 segment 例以资源个实,不 master 例还
segment 例都是一个理上独立 PostgreSQL 数据库。
2. 分布式数据存储
数据存储分布化是分布式数据库要解的第一个问。分布式数据存储基本理相对简单,实
容易,很多数据库中间件也可以做到基本的分布式数据存储Greenplum 在这方面不单单做
到了基本的分布式数据存储了很多更灵活性,如多级分、多态存储
of 35
5墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

文档被以下合辑收录

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜