暂无图片
暂无图片
3
暂无图片
暂无图片
暂无图片

开源盛会!Apache Cloudberry 邀您共赴 Community Over Code Asia 2025

ApacheCloudberry 2025-07-11
461

Community Over Code 是 Apache 软件基金会(ASF)的官方全球系列大会,今年的亚洲分会场将于 7 月 25-27 日在北京举办。届时,大会将展示 Apache 项目的最新突破和 Apache 孵化器中蓬勃发展的新项目,向大家展示 Apache社区的开放协作与创新活力。

本次大会将持续 3 天,设有 18 个论坛方向。酷克数据 HashData 携手 Apache Cloudberry 开源社区贡献者和用户们,将在 AI、Data Lake & Data Warehouse、DataOps、OLAP & Data Analysis、Incubator 领域中分享 6 个议题,欢迎大家与我们在现场相聚!

AI

《从数据到 AI:借助 Apache Cloudberry 构建统一分析平台》

演讲简介:

当前企业在实现 AI 潜能的过程中面临诸多挑战,如数据系统碎片化、处理流程效率低下,以及分析与机器学习之间的壁垒。Apache Cloudberry 作为开源 MPP 数据仓库,它通过深度融合数据处理与 AI,重新定义了企业基于数仓落地AI的新范式,打破隔阂,加速创新。 在本次演讲中,我们将展示 Cloudberry 如何实现:

  • 统一执行:可在数据仓库中直接运行原生的 AI/ML 模型(如 PyTorch、Scikit-learn)
  • 多模态分析:在统一框架下处理结构化与非结构化数据(如 PDF、图像等文档)
  • 智能数据应用:构建 RAG 增强型问答系统、ChatBI、以及多模态搜索等应用

参会者将了解到如何将数据与智能整合至一个平台中,简化复杂度的同时扩展 AI 工作负载。

演讲人简介:

Chuanxin Bian,香港理工大学应用数学博士学位,数据科学家与应用数学专家,现任职于酷克数据,开发 HashML、ChatData 等 AI 工具,并专注于 AIGC 相关应用。曾任百度高级算法工程师,参与大模型的一线研发,精通 Python 及深度学习框架,致力于推动 AI 理论与实践的融合创新。

扫码报名大会

Data Lake & Data Warehouse

《基于 Apache Cloudberry 构建统一湖仓一体解决方案》

演讲简介:

数据仓库在高效分析方面表现出色,而数据湖则具备可扩展存储与灵活的数据管理能力。Lakehouse 架构旨在融合两者优势,实现跨湖与仓的无缝集成,从而提升分析效率并实现统一治理。 作为新一代开源 MPP 数据库,Apache Cloudberry 通过技术延伸构建开放的 Lakehouse 解决方案。本次演讲将介绍 Cloudberry 在统一 Lakehouse 架构中的关键能力:

  1. 基于 Parquet/ORC 的极速湖查询,无需数据搬移
  2. 统一数据网关,实现异构数据源的查询与写入
  3. 集成的数据处理与同步管道,支持从采集到分析的端到端流程
  4. 开放的元数据与存储格式,便于生态集成并降低迁移成本

演讲人简介:

Roseduan,Apache Cloudberry 贡献者,酷克数据内核开发工程师。

扫码报名大会

《Apache Cloudberry 简介:演进、核心特性与发展路线图》

演讲简介:

Apache Cloudberry 是一款成熟的开源 MPP 数据库,源自 Pivotal Greenplum® 的开源版本,但构建于更现代的 PostgreSQL 内核之上,具备更强的企业级能力。Cloudberry 既可用作数据仓库,也适用于大规模分析与 AI/ML 任务。 本次演讲将介绍:

  • 项目起源与进入 Apache 孵化器的过程;
  • 与其他分析型数据库的差异化优势;
  • Cloudberry 的核心特性、架构亮点与未来规划;
  • 与主流数据仓库系统的简要对比,帮助听众了解 Cloudberry 在生态中的定位及发展方向。

演讲人简介:

Max Yang , Apache Cloudberry PPMC 成员,酷克数据研发 VP。

扫码报名大会

DataOps

《Apache SeaTunnel 架构解析与 Apache Cloudberry 集成实践》

演讲简介:

本次演讲将深入解析 Apache SeaTunnel —— 一款高性能分布式数据集成平台,专为跨异构数据源的大规模同步设计。内容包括:

  • SeaTunnel 的核心架构:插件化设计、Spark 与 Flink 的统一抽象;
  • 从 V1 到 V2 的演进历程:更强的扩展性与引擎无关的架构;
  • 高级特性:动态分片策略、数据抽样技术、字符串分区优化等。 演讲还将展示与 Cloudberry 的实际集成案例,演示如何借助基于 JDBC 的连接器实现双向数据流,并讨论性能优化要点。最后,还将分享后续计划,包括基于 gpfdist 协议实现并行处理的大规模数据迁移。

演讲人简介:

Hongyu Chen ,网易数据集成研发工程师,拥有计算机硕士学位与多年大型数据传输系统经验,Apache SeaTunnel 贡献者,专注于企业级 ETL 场景下的高性能集成解决方案,擅长分布式系统与数据处理架构设计。 

扫码报名大会

OLAP & Data Analysis

《Apache Cloudberry 的向量化执行:设计、挑战与性能收益》

演讲简介:

随着分析型工作负载在规模与复杂度上的不断提升,对高性能数据处理引擎的需求也日益增长。虽然 MPP 架构可在硬件层面实现性能扩展,但基于 PostgreSQL 的数据库(如 Greenplum 和 Apache Cloudberry)在执行引擎上仍存在瓶颈。 为突破限制,我们为 Cloudberry 推出向量化执行引擎方案,通过批处理和底层指令优化大幅提升效率。本次演讲将深入剖析该引擎的设计与实现,分享工程细节、真实使用场景中的性能基准、瓶颈问题以及未来的优化方向。

演讲人简介:

Yue Zhang ,酷克数据软件工程师 

扫码报名大会

Incubator

《Apache Cloudberry 孵化之旅的经验分享》

演讲简介:

Apache Cloudberry 是一个基于 Pivotal Greenplum® 的开源版本的 MPP 数据库,带着将分析能力带入开源社区的愿景进入 Apache 孵化器。作为项目的发起人及持续贡献者,我亲历了整个孵化过程:从撰写提案、组建 PPMC、发布及宣传、清理代码库,到构建社区共识。 本次分享将深入探讨如何高效应对 Apache 孵化流程中的挑战,包括如何构建多元活跃的社区、确保治理与知识产权合规、以及在开源开发与商业化之间找到平衡。这将为有意参与孵化器项目的开发者、导师与贡献者提供可操作的参考与指导,推动构建健康、可持续的开源生态。

演讲人简介:

Dianjin Wang,Apache Cloudberry PPMC 成员,ALC Beijing 成员,ApacheCon Asia 2021-2025 分会主席,酷克数据开源负责人。

扫码报名大会

开源市集 等你来玩

Community Over Code Asia 2025 大会现场设置了开源市集,Apache Cloudberry 社区将设有一个互动展位,欢迎参会的各位社区小伙伴前来打卡,参与互动,赢取社区周边!

限量赠票

限量免费参会票,可添加小助手发送消息领取(先到先得)!

最后修改时间:2025-07-11 10:55:57
文章转载自ApacheCloudberry,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论