Apache Cloudberry亮相Community Over Code Asia 2025，分享开源MPP数据库创新实践

HashData 2025-08-04

309

7 月 25 日至 27 日，Apache 软件基金会（ASF）官方全球系列大会 Community Over Code Asia 2025 在京顺利举行。作为 Apache 社区最具影响力的活动之一，本次大会为期三天，涵盖18个专题论坛，汇聚了来自全球的顶尖技术专家、社区贡献者与开源实践者，共同探讨Apache生态的发展方向、技术创新与社区建设。

作为正在 Apache 孵化器中稳步发展的开源 MPP 数据库项目，Apache Cloudberry™ (Incubating) 社区成员在本次大会上带来了多场技术分享，覆盖向量化引擎方案、AI 融合、Lakehouse 架构实践、数据集成、社区治理等多个主题，展示了其在统一分析平台构建方面的持续探索与社区成果。

Apache Cloudberry 精彩议题回顾

深入向量执行引擎方案内核，优化大规模分析性能

7月25日下午，在“OLAP & Data Analysis”论坛上，酷克数据 HashData 内核研发工程师张玥带来题为《深入 Apache Cloudberry 的向量化执行方案：设计、挑战与性能提升》的技术演讲，揭示了针对 Apache Cloudberry 打造的向量化执行引擎方案的设计与关键创新。

面对传统 PostgreSQL 行式存储在处理大规模分析负载时存在的性能瓶颈，酷克数据设计并实现了基于 Apache Arrow 内存格式的列式向量化引擎。该引擎不仅实现了零拷贝数据访问，还通过重写 Scan、Agg、Sort、Motion 等核心算子，并引入多线程并行执行机制，显著提升查询效率和资源利用率。

特别是在并行化与传输机制上，该方案打破传统批处理碎片化的限制，通过同机线程间无序列化合并技术，有效避免了冗余内存与计算开销，提升了分布式数据传输的吞吐能力。该技术方案使得 Cloudberry 能够以更少的资源支撑更高强度的数据分析任务，展示出其在MPP架构下的强劲性能优势。张玥还表示，酷克数据团队目前正在制定计划，筹备将该功能贡献回 Apache Cloudberry 社区。

融合 AI 能力，构建统一智能分析平台

同一时间，在“AI”分论坛中，酷克数据 HashData 数据科学工程师卞传鑫分享了《从数据到 AI｜基于 Apache Cloudberry 构建统一分析平台》的技术探索，聚焦于数据智能一体化的构建思路与平台实现。

Cloudberry 以开放兼容为核心设计理念，在保留 MPP 并行处理优势的同时，原生兼容向量检索能力扩展（pgvector）、支持非结构化数据管理（如目录表机制）、以及支持透明数据加密与行列混合存储等 AI 相关特性，全面打通数据与智能间的屏障。

项目基于 Apache Cloudberry 构建了面向智能场景的双引擎体系——结构化数据由 Cloudberry 的分布式计算引擎负责处理，AI 能力则通过嵌入式智能引擎提供，包括大模型私有化部署、语义向量化、标签生成、微调与后训练等多种能力。通过全文索引与向量索引融合的智能检索机制，Cloudberry 在问答系统、运维助手、企业知识库等应用中表现出良好的性能和可扩展性。

未来，Apache Cloudberry 社区计划进一步推动自然语言转SQL能力的引入，并原生支持更多 AI/ML 生态工具如实现在 Apache MADlib 上游原生支持 Apache Cloudberry等，为开发者提供更加智能、灵活的分析体验。

构建统一 Lakehouse 架构，实现数据“零 ETL”分析

在7月26日举行的“Data Lake & Warehouse”论坛上，酷克数据 HashData 内核研发工程师 Roseduan 分享了《基于 Apache Cloudberry 构建统一的 Lakehouse 解决方案》的技术实践，回应了业界对湖仓一体架构日益增长的需求。

Cloudberry 提供灵活的 FDW（Foreign Data Wrapper）框架，支持多种数据源接入，包括主流关系型数据库、对象存储（如 OSS、HDFS）以及 Hudi、Iceberg、Parquet 等湖存格式，实现数据源的虚拟化映射与高效访问。在执行引擎层面，通过定制 FdwRoutine 接口和三阶段执行机制，有效提升了对外部数据的处理性能。

项目蓝图解读：Cloudberry 定位、架构与未来路线图

在“Data Lake & Warehouse”论坛上，Apache Cloudberry PPMC 成员、酷克数据 HashData 研发 VP 杨瑜系统地介绍了 Cloudberry 项目的整体定位、架构优势与未来发展路线图。

Apache Cloudberry 是一款先进且成熟的开源 MPP 数据库，源自 Pivotal Greenplum Database® 的开源版本，并基于更现代的 PostgreSQL 内核进行升级。相较传统架构，Cloudberry 拥有更强的企业级能力，既可作为高性能数据仓库，也可支持大规模分析与 AI/ML 工作负载。

在本次演讲中，杨瑜详细介绍了 Cloudberry 的核心功能、体系架构、演进方向，以及其在开源生态中的独特定位。项目强调开放兼容、架构灵活，旨在构建一个真正社区驱动、面向未来的数据分析平台。

拓展生态集成：与 Apache SeaTunnel 实现数据流同步

7月27日，“DataOps”论坛中，来自网易的数据集成工程师陈虹宇带来《SeaTunnel 架构分析与 Cloudberry 集成实践》的分享，将视角拓展至数据流处理与集成领域。

Apache SeaTunnel 是一款专为大规模异构数据同步设计的高性能平台，具备灵活的插件体系与引擎无关设计。在本次演讲中，陈虹宇详细介绍了 SeaTunnel 从 V1 到 V2 的架构演进，并重点展示了其在动态分片、数据采样、字符串分区等高阶功能方面的技术细节。

更值得关注的是，SeaTunnel 已实现与 Cloudberry 的双向 JDBC 工作流集成，可在实际生产环境中支撑高并发数据同步任务。未来，双方还将探索基于 gpfdist 协议的并行大规模迁移方案，以进一步释放海量数据集成的潜力。

回望孵化历程，践行“The Apache Way”

大会最后一天，在“Incubator”分论坛中，Apache Cloudberry PPMC 成员、酷克数据 HashData 开源负责人王殿进，以《从提案到进展｜从孵化 Apache Cloudberry 中汲取的经验教训》为题，深度剖析了 Cloudberry 从项目发起到进入 Apache 孵化的完整历程。

演讲回顾了项目提交孵化提案、完成代码合规迁移、品牌重塑、社区治理流程设计等多个关键阶段，强调在 Apache 模式下“信任流程、尊重共识”的价值观转变。Cloudberry 团队通过公开路线图、推动用户参与、设立贡献者友好机制等方式，推动项目成长为社区共建的开源平台。

这一孵化过程不仅体现出项目对开放治理的认同，也为其他有意进入 Apache 的新项目提供了宝贵的参考路径。正如王殿进所言：“孵化不只是走流程，更是对开源信仰的一次重建。”

结语

作为 Apache 基金会孵化下的新星项目，Apache Cloudberry 在 Community Over Code Asia 2025 的高光表现，不仅展示了其技术深度与生态活力，也体现出其对开源理念的深刻理解与践行。未来，随着社区的不断壮大与生态的持续完善，相信Cloudberry 将成为推动开源数据库方向的重要力量。

👇🏻️扫码加入 Apache Cloudberry 交流群👇🏻️

架构 apache hashdata 大数据开放源代码

文章转载自HashData，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。