
Greenplum:基于 PostgreSQL 的分布式
数据库内核揭秘
Greenplum 是最成熟的开源分布式分析型数据库(今年 6 月份预计发布的 Greenplum 6 之 OLTP
性能大幅提升,将成为一款真正的 HTAP 数据库,评测数据将于近期发布),Gartner 2019 最新
评测显示 Greenplum 在经典数据分析领域位列全球第三,在实时数据分析领域位列并列第四。两
个领域中前十名中唯一一款开源数据库产品。这意味着如果选择一款基于开源的产品,前十名中
别无选择,唯此一款。Gartner 报告原文。
那么 Greenplum
分布式
数据库是如何炼成?众所周知 Greenplum 基于 PostgreSQL。
PostgreSQL 是最先进的单节点数据库,其相关内核文档、论文资源很多。而有关如何将单节点
PostgreSQL 改造成分布式数据库的资料相对较少。本文从 6 个方面介绍将单节点 PostgreSQL
数据库发展成分布式 MPP 数据库所涉及的主要工作。当然这些仅仅是极简概述,做到企业级产
品化耗资数亿美元,百人规模的数据库尖端人才团队十几年的研发投入结晶而成。
虽然不是必需,然而了解 PostgreSQL 基本内核知识对理解本文中的一些细节有帮助。Bruce
Momjian 的 PPT 是极佳入门资料。
1. Greenplum 集群化概述
PostgreSQL 是世界上最先进的单机开源数据库。Greenplum 基于 PostgreSQL,是世界上最先
进的开源 MPP 数据库 (有关 Greenplum 更多资讯请访问 Greenplum 中文社区)。从用户角度来
看,Greenplum 是一个完备的关系数据库管理系统(RDBMS)。从物理层面,它内含多个
PostgreSQL 实例,这些实例可以单独访问。为了实现多个独立的 PostgreSQL 实例的分工和合
作,呈现给用户一个逻辑的数据库,Greenplum 在不同层面对数据存储、计算、通信和管理进行
了分布式集群化处理。Greenplum 虽然是一个集群,然而对用户而言,它封装了所有分布式的细
节,为用户提供了单个逻辑数据库。这种封装极大的解放了开发人员和运维人员。
文档被以下合辑收录
评论