暂无图片
暂无图片
5
暂无图片
暂无图片
暂无图片

Apache Cloudberry亮相Community Over Code Asia 2025,分享开源MPP数据库创新实践

HashData 2025-08-04
309

7 月 25 日至 27 日,Apache 软件基金会(ASF)官方全球系列大会 Community Over Code Asia 2025 在京顺利举行。作为 Apache 社区最具影响力的活动之一,本次大会为期三天,涵盖18个专题论坛,汇聚了来自全球的顶尖技术专家、社区贡献者与开源实践者,共同探讨Apache生态的发展方向、技术创新与社区建设。

作为正在 Apache 孵化器中稳步发展的开源 MPP 数据库项目,Apache Cloudberry™ (Incubating) 社区成员在本次大会上带来了多场技术分享,覆盖向量化引擎方案、AI 融合、Lakehouse 架构实践、数据集成、社区治理等多个主题,展示了其在统一分析平台构建方面的持续探索与社区成果。

Apache Cloudberry 精彩议题回顾

深入向量执行引擎方案内核,优化大规模分析性能

7月25日下午,在“OLAP & Data Analysis”论坛上,酷克数据 HashData 内核研发工程师张玥带来题为《深入 Apache Cloudberry 的向量化执行方案:设计、挑战与性能提升》的技术演讲,揭示了针对 Apache Cloudberry 打造的向量化执行引擎方案的设计与关键创新。

面对传统 PostgreSQL 行式存储在处理大规模分析负载时存在的性能瓶颈,酷克数据设计并实现了基于 Apache Arrow 内存格式的列式向量化引擎。该引擎不仅实现了零拷贝数据访问,还通过重写 Scan、Agg、Sort、Motion 等核心算子,并引入多线程并行执行机制,显著提升查询效率和资源利用率。

特别是在并行化与传输机制上,该方案打破传统批处理碎片化的限制,通过同机线程间无序列化合并技术,有效避免了冗余内存与计算开销,提升了分布式数据传输的吞吐能力。该技术方案使得 Cloudberry 能够以更少的资源支撑更高强度的数据分析任务,展示出其在MPP架构下的强劲性能优势。张玥还表示,酷克数据团队目前正在制定计划,筹备将该功能贡献回 Apache Cloudberry 社区。

融合 AI 能力,构建统一智能分析平台

同一时间,在“AI”分论坛中,酷克数据 HashData 数据科学工程师卞传鑫分享了《从数据到 AI|基于 Apache Cloudberry 构建统一分析平台》的技术探索,聚焦于数据智能一体化的构建思路与平台实现。

Cloudberry 以开放兼容为核心设计理念,在保留 MPP 并行处理优势的同时,原生兼容向量检索能力扩展(pgvector)、支持非结构化数据管理(如目录表机制)、以及支持透明数据加密与行列混合存储等 AI 相关特性,全面打通数据与智能间的屏障。

项目基于 Apache Cloudberry 构建了面向智能场景的双引擎体系——结构化数据由 Cloudberry 的分布式计算引擎负责处理,AI 能力则通过嵌入式智能引擎提供,包括大模型私有化部署、语义向量化、标签生成、微调与后训练等多种能力。通过全文索引与向量索引融合的智能检索机制,Cloudberry 在问答系统、运维助手、企业知识库等应用中表现出良好的性能和可扩展性。

未来,Apache Cloudberry 社区计划进一步推动自然语言转SQL能力的引入,并原生支持更多 AI/ML 生态工具如实现在 Apache MADlib 上游原生支持 Apache Cloudberry等,为开发者提供更加智能、灵活的分析体验。

构建统一 Lakehouse 架构,实现数据“零 ETL”分析

在7月26日举行的“Data Lake & Warehouse”论坛上,酷克数据 HashData 内核研发工程师 Roseduan 分享了《基于 Apache Cloudberry 构建统一的 Lakehouse 解决方案》的技术实践,回应了业界对湖仓一体架构日益增长的需求。

Cloudberry 提供灵活的 FDW(Foreign Data Wrapper)框架,支持多种数据源接入,包括主流关系型数据库、对象存储(如 OSS、HDFS)以及 Hudi、Iceberg、Parquet 等湖存格式,实现数据源的虚拟化映射与高效访问。在执行引擎层面,通过定制 FdwRoutine 接口和三阶段执行机制,有效提升了对外部数据的处理性能。

项目蓝图解读:Cloudberry 定位、架构与未来路线图

在“Data Lake & Warehouse”论坛上,Apache Cloudberry PPMC 成员、酷克数据 HashData 研发 VP 杨瑜系统地介绍了 Cloudberry 项目的整体定位、架构优势与未来发展路线图。

Apache Cloudberry 是一款先进且成熟的开源 MPP 数据库,源自 Pivotal Greenplum Database® 的开源版本,并基于更现代的 PostgreSQL 内核进行升级。相较传统架构,Cloudberry 拥有更强的企业级能力,既可作为高性能数据仓库,也可支持大规模分析与 AI/ML 工作负载。

在本次演讲中,杨瑜详细介绍了 Cloudberry 的核心功能、体系架构、演进方向,以及其在开源生态中的独特定位。项目强调开放兼容、架构灵活,旨在构建一个真正社区驱动、面向未来的数据分析平台。

拓展生态集成:与 Apache SeaTunnel 实现数据流同步

7月27日,“DataOps”论坛中,来自网易的数据集成工程师陈虹宇带来《SeaTunnel 架构分析与 Cloudberry 集成实践》的分享,将视角拓展至数据流处理与集成领域。

Apache SeaTunnel 是一款专为大规模异构数据同步设计的高性能平台,具备灵活的插件体系与引擎无关设计。在本次演讲中,陈虹宇详细介绍了 SeaTunnel 从 V1 到 V2 的架构演进,并重点展示了其在动态分片、数据采样、字符串分区等高阶功能方面的技术细节。

更值得关注的是,SeaTunnel 已实现与 Cloudberry 的双向 JDBC 工作流集成,可在实际生产环境中支撑高并发数据同步任务。未来,双方还将探索基于 gpfdist 协议的并行大规模迁移方案,以进一步释放海量数据集成的潜力。

回望孵化历程,践行“The Apache Way”

大会最后一天,在“Incubator”分论坛中,Apache Cloudberry PPMC 成员、酷克数据 HashData 开源负责人王殿进,以《从提案到进展|从孵化 Apache Cloudberry 中汲取的经验教训》为题,深度剖析了 Cloudberry 从项目发起到进入 Apache 孵化的完整历程。

演讲回顾了项目提交孵化提案、完成代码合规迁移、品牌重塑、社区治理流程设计等多个关键阶段,强调在 Apache 模式下“信任流程、尊重共识”的价值观转变。Cloudberry 团队通过公开路线图、推动用户参与、设立贡献者友好机制等方式,推动项目成长为社区共建的开源平台。

这一孵化过程不仅体现出项目对开放治理的认同,也为其他有意进入 Apache 的新项目提供了宝贵的参考路径。正如王殿进所言:“孵化不只是走流程,更是对开源信仰的一次重建。”

结语

作为 Apache 基金会孵化下的新星项目,Apache Cloudberry 在 Community Over Code Asia 2025 的高光表现,不仅展示了其技术深度与生态活力,也体现出其对开源理念的深刻理解与践行。未来,随着社区的不断壮大与生态的持续完善,相信Cloudberry 将成为推动开源数据库方向的重要力量。

👇🏻️扫码加入 Apache Cloudberry 交流群👇🏻️


文章转载自HashData,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论