
点击蓝字关注我们
EDB 最近宣布推出 EDB Postgres AI - 支持 Greenplum 工作负载以及 Greenplum Database 的新 Apache 许可分支版本 WarehousePG。对于那些因 Greenplum 转为闭源而寻求可信替代方案的团队来说,EDB Postgres AI - 通过WarehousePG是一种即插即用的解决方案来兼容并支持 Greenplum 工作负载,能够降低风险并保护现有投资。
本文将深入探讨 Greenplum 的发展历程及新推出的Apache 许可分支- EDB数据仓库现代化解决方案WarehousePG 的技术架构,包括大规模并行处理(MPP)和 Postgres 兼容性等概念。此外,我们还将阐述为什么 EDB Postgres AI - 支持 Greenplum 工作负载是那些面临 Greenplum 投资风险的组织一直在寻找的开源发展路径:它可以帮助他们规避供应商锁定风险,拥抱开源创新,利用现有的 Greenplum 技能和基础设施,同时保持较低的总体拥有成本(TCO)。
Greenplum Database 及其演变
Greenplum 的发展基本上代表了数据仓库的演变历程。作为开创性的 MPP Postgres 数据库系统,它改变了企业处理和分析 PB 级数据量的方式。该系统基于 Postgres 构建的架构为分布式数据库系统在性能和可扩展性方面树立了新标准。
Greenplum 的所有权变更标志着其发展和可用性的重大转变。最初由 Greenplum Corporation 开发,该数据库系统于 2010 年被 EMC Corporation 收购。2012 年,EMC 和 VMware 成立了 Pivotal 合资企业,Greenplum 由此归属于其旗下。在 Pivotal 时代,Greenplum 作为开源项目蓬勃发展,促进了创新和社区协作。
2020 年,VMware 收购了 Pivotal,包括 Greenplum,在保持开源的同时,维持了强大的社区参与度。然而,2023 年 Broadcom 收购 VMware 后,宣布计划将 Greenplum 转变为闭源模式,形势发生了巨大变化。

图 1:Greenplum 转变时间线
转为闭源给现有 Greenplum 用户带来了几个重大挑战:
技术过时风险:使用遗留开源版本会使企业面临不断增加的安全和兼容性问题。
供应商锁定风险:选择新的闭源选项可能会使企业面临不熟悉的支持和价格上涨风险。
业务连续性风险:无论做出何种选择,关键业务系统和现有的 Greenplum 投资都面临风险。
创新受限:闭源模式限制了定制和社区贡献,限制了功能开发以及针对特定需求进行优化的能力。
迁移压力:用户面临着要么接受新条款,要么进行成本高昂的迁移项目以转向替代方案的压力。
这些挑战促使许多企业需要重新评估其数据仓库战略,并寻找能够提供更可预测的成本和对数据基础设施更大控制权的替代方案。
EDB Postgres AI - 支持 Greenplum 工作负载是这些客户一直在寻找的可靠、兼容的开源替代方案。
EDB Postgres AI - 支持 Greenplum 工作负载是最佳的 Greenplum 替代方案
EDB Postgres AI - 支持 Greenplum 工作负载为 Greenplum 客户提供了无缝过渡到 WarehousePG 的路径。这一数据仓库现代化的路径是无痛的——由于与 Greenplum 6.x 和 7.x 版本的二进制兼容,无需重新培训或重构。此外,该解决方案还提供 24x7 的故障排除支持、常见漏洞和暴露(CVE)的补丁以及 EDB 签名的软件包——确保安全的开源供应链。WarehousePG 还通过提供 Greenplum 传统版本所不具备的功能和 Postgres 扩展兼容性,加速了高级分析和 AI 用例的创新。
下面更深入地探讨使这成为可能的方面,即 WarehousePG 和 Greenplum 架构——包括数据处理架构、SQL 接口等。
技术探讨:WarehousePG 和 Greenplum 架构及关键特性
大规模并行处理(MPP)架构和分布式查询执行
MPP 是一种使用多个处理器同时执行单个程序的计算架构。在数据库系统中,MPP 通过将工作分布在许多独立节点上,每个节点处理数据的一部分,从而实现对大数据集的处理。与传统的单节点数据库系统相比,这种方法显著提高了性能和可扩展性。
WarehousePG 作为 Greenplum 的分支版本,也是基于 MPP 架构。MPP 专为大规模数据的高性能分析处理而设计,由一个协调主机和多个段主机组成。协调机作为客户端连接的入口点,负责查询规划和协调分布式查询执行。并维护系统目录,提供查询提交和结果聚合的接口。
段主机是系统的主体处理单元,每个主机运行多个段(通常根据可用的 CPU、RAM、存储和网络资源,运行 2 个或更多)。这些段主机作为独立的 Postgres 数据库运行,以并行方式存储和处理数据。当提交查询时,协调机会创建一个优化的执行计划,将工作负载分布在所有段上。每个段同时处理其部分数据,结果通过协调机汇总。这种并行处理架构使 WarehousePG 能够高效地处理 PB 级数据集上的复杂分析查询。为了实现最佳性能和工作负载平衡,所有段主机应配置相同。

图 2:WarehousePG/Greenplum 的 MPP 架构由一个主要的协调主机和一组段主机组成。
如果协调器主机崩溃会发生什么?为了确保高可用性,WarehousePG 通过备用协调器主机实现故障转移机制。这个备用协调器通过 Write-Ahead Logging(WAL)流复制维护主要协调器的数据和元数据的实时副本。如果主要协调器出现故障,备用协调器会自动提升为主要状态,确保数据库操作的中断最小化。这种温备方式提供了强大的容错能力,而不会带来同步复制的性能开销。

图 3:在主要协调器故障的情况下,备用协调器会自动提升为主要状态。
如果段主机出现故障怎么办?段镜像在段级别提供了关键的故障转移保护。每个主段可以有一个镜像段,镜像段维护其数据的精确副本。这些镜像被战略性地放置在与其主段不同的主机上,以实现冗余。如果主段不可用,系统会自动切换到其镜像,确保数据库操作不间断。Greenplum 提供两种镜像配置:组镜像(所有镜像集中在单个备份主机上)和分散镜像(镜像分布在多个主机上,以增强容错能力)。

图 4:如果主段不可用,系统会自动切换到其镜像,确保数据库操作不间断。
协调机和段主机之间的高吞吐量、低延迟通信对于高效的查询处理至关重要。Greenplum Interconnect 作为 WarehousePG 架构中的关键网络层,充当 MPP 架构的神经系统。这个互连管理段之间的进程间通信,同时提供并行查询执行、数据分布和结果聚合所需的底层网络基础设施。
Postgres 兼容性
WarehousePG 与 Postgres 保持了强大的二进制兼容性。这种兼容性不仅涉及 SQL 语法,还包括对 Postgres 的基本功能的支持,如常见表表达式(CTEs)、窗口函数、高级索引等。
这意味着你可以使用任何 Postgres 客户端(如 psql 或 pgcli)连接到 WarehousePG:
psql -h hostname -p 5432 -d database -U username
这种兼容性提供了无缝访问丰富的 Postgres 扩展生态系统的能力,从而支持各种分析工作负载,同时支持针对特定工作负载的自定义扩展。
以下是一些值得注意的实用工具和扩展。
PL/R - 使用 Greenplum Database 的 PL/R 扩展,可以在R编程语言中编写数据库函数,并使用包含R函数和数据集的R软件包。
PL/Java - 编写Java方法,然后将包含这些方法的JAR文件安装到Warehousepg数据库中。
Madlib - Apache Madlib是一个开源库,用于可扩展的数据库分析。 Madlib扩展提供了在仓库中运行机器学习和深度学习工作负载的能力。
PXF - 它通过内置连接器提供对此外部数据的访问,该连接器将外部数据源映射到仓库epg表定义。
熟悉的 Postgres 接口还减少了开发人员和数据库管理员的学习曲线,使团队能够在使用 WarehousePG 的 MPP 架构时利用现有的 Postgres 专业知识。
其他软件包和商业支持
WarehousePG 提供了替代当前流行的商业模块的方案。这些将以全新的开发、合作伙伴关系以及与 EDB Postgres AI 的新旧解决方案的集成形式出现,并由 EDB 获奖的 24x7 全球支持提供支持。
用 WarehousePG 替换 Greenplum
WarehousePG 允许企业继续使用现有的基础设施,同时避免将数据迁移到平台之外所带来的任何风险或成本。前进的道路很简单:停止 Greenplum 进程,移除旧软件包,安装 WarehousePG 软件包,然后重新启动数据库。无需更改端口、AI/BI/DBA 工具集或定期安排的系统管理任务。
对于使用较旧版本的 Greenplum(如 6.x)的组织,EDB 专业服务还可以提供版本升级帮助——替换二进制文件,然后将其升级到 WarehousePG 7.x,以提高 Postgres 兼容性和高级功能,而不会中断业务连续性。

从 Greenplum 切换到 WarehousePG
结论
通过这次技术深入探讨,我们了解了 Greenplum 作为企业数据仓库解决方案的功能特性,以及支持 Greenplum 工作负载的开源Apache 许可软件WarehousePG(EDB Postgres AI 组件)如何无缝替代 Greenplum 的最佳方案。
关于公司
感谢您关注新智锦绣科技(北京)有限公司!作为 Elastic 的 Elite 合作伙伴及 EnterpriseDB 在国内的唯一代理和服务合作伙伴,我们始终致力于技术创新和优质服务,帮助企业客户实现数据平台的高效构建与智能化管理。无论您是关注 Elastic 生态系统,还是需要 EnterpriseDB 的支持,我们都将为您提供专业的技术支持和量身定制的解决方案。
欢迎关注我们,获取更多技术资讯和数字化转型方案,共创美好未来!
![]() | ![]() |
Elastic 微信群 | EDB 微信群 |

发现“分享”和“赞”了吗,戳我看看吧






