Apache Cloudberry™ (Incubating) 是 Apache 软件基金会孵化项目,由 Greenplum 和 PostgreSQL 衍生而来,作为领先的开源 MPP 数据库,可用于建设企业级数据仓库,并适用于大规模分析和 AI/ML 工作负载。
GitHub: https://github.com/apache/cloudberry

2025 年 12 月 6–7 日,第十届中国开源年会 COSCon’25 在北京市海淀区丽亭华苑酒店圆满落幕。作为中国最具影响力的开源盛会之一,COSCon 自 2015 年创办以来已经走过十年历程。本届大会以“众智开源 Open Source,Open Intelligence”为主题,聚焦开源与人工智能深度融合带来的技术变革、产业趋势与生态协同,吸引了国内外众多社区、企业与开发者参与。
在这一具有重要节点意义的十周年大会上,酷克数据携手 Apache Cloudberry 社区携技术演讲与开源市集展位亮相,与参会开发者共同探索 AI 时代构建新一代数据智能平台的前沿路径,展示了开源数据库在智能化浪潮中的新角色与新机遇。
基于Apache Cloudberry构建库内数据智能平台
在 COSCon 的核心论坛之一——Data for AI 开源论坛中,酷克数据开源负责人、Apache Cloudberry PPMC 成员王殿进带来了主题演讲《基于 Apache Cloudberry 构建库内原生数据智能平台》。演讲围绕 Cloudberry 的核心能力、AI 原生特性及未来生态布局展开,引发现场开发者的高度关注。

作为一款基于 PostgreSQL 的大规模并行处理数据库,Apache Cloudberry 能够支持 TB 至 PB 级的数据规模,适用于企业级数据仓库构建,同时满足大数据分析与 AI/ML 等复合型业务场景需求。自 2024 年正式进入 Apache 孵化器以来,Cloudberry 凭借行列混合存储、动态表与增量物化视图、并行查询执行与算子下推、以及对非结构化数据的统一管理能力等诸多新特性,逐步成长为面向新一代智能数据需求的开源数据库代表。
在演讲中,王殿进阐述了“库内智能”这一理念。他指出,传统数据智能架构往往依赖数据库、ETL、中间存储与 AI 平台之间的复杂链路,不仅带来显著的延迟与成本,也增加了整体系统的运维复杂度。生态企业基于 Cloudberry 自有的生态插件、内置 AI 方面的能力并自研集成分布式 AI 计算引擎 Ray,构建起库内智能平台( In-database Intelligence),使数据能够在库内完成智能分析与推理,无需跨系统迁移。该架构通过融合 SQL 与 Python 双入口、融合 ML/DL/LLM 的计算框架,实现数据库在 AI 时代的角色跃迁。
在面向数据智能能力建设方面,基于丰富的生态与内置 AI 能力,生态企业和用户可基于 Cloudberry 形成覆盖传统机器学习、向量检索、分布式 AI 计算与 RAG 知识库的核心能力矩阵。其中:
Apache MADlib 提供丰富的传统机器学习算法,通过 SQL 就可以进行机器学习、数据科学计算;
pgvector for Cloudberry 支持语义相似度搜索;结合 ZomboDB for Cloudberry,进行关键词/分词检索。结合向量检索与全文检索,即可进行电商搜索、内容平台等场景落地。
目录表(Directory Table)实现对文档、音视频等非结构化数据的管理与处理;
可通过 AI 完备的客户端接入 Cloudberry MCP 服务器,对数据库元数据、数据库操作等进行查询与分析
……
上述能力共同构成了 Cloudberry 在 AI 原生数据库领域的关键竞争力,为构建一体化的数据智能平台奠定了基础。
王殿进现场还深入分享了酷克数据 HashData 基于 Cloudberry 自研的下一代数据科学与 AI 开发工具 HashML。该工具基于 Ray 构建,提供多机多卡的分布式 AI 计算能力,覆盖从传统机器学习建模到大模型推理、微调及多模态任务的全链路能力。依托 Cloudberry,HashML 继承了优秀的分布式并行处理架构与弹性伸缩能力,能够在同一平台上完成数据查询分析、机器学习、深度学习等多层次的数据智能任务。
在大语言模型(LLM)方向,HashML 提供从后预训练、微调、部署到应用的端到端支持,可通过 Python 与 SQL 两种编程接口进行调用,显著降低 AI 技术落地门槛,帮助数据科学家、数据工程师与 AI 应用开发者更高效地使用先进的 AI 技术。
在应用层面,HashML 已提供一系列面向企业场景的智能能力组件,包括:
智能问答:企业专属知识问答系统,基于向量检索与大模型推理实现可信问答。
智能问数(ChatData):对话式数据查询、分析与可视化应用,可自动生成 SQL/Python 代码并执行。
HashML Platform:内置丰富的算法与模型库,涵盖机器学习、深度学习、大语言模型与多模态模型,可按需选择与组合使用。
DocMind:多模态智能文档系统,支持数据管理、工作流搭建、知识库构建、智能搜索与问答等功能,满足企业私有化环境下数据管理、知识库构建与智能文档应用的需求。
依托 HashML 及其生态能力,企业能够在本地化、私有化环境中构建统一的数据智能与 AI 开发生态,实现从数据到知识、从分析到智能的一体化能力建设。
开源市场集·创新力量
除了技术分享之外,COSCon’25 的开源市集同样热闹非凡,共有 33 家社区与开发者组织参与展示,以更贴近开发者、更具互动性的形式呈现开源生态的活力。在 Apache Cloudberry 展位,来自数据库、数据分析、数据工程、AI 应用等领域的参会者与社区成员深入交流,共同探讨数据智能时代的技术趋势与实践路径,进一步推动了社区生态的联动与合作。

加入 Apache Cloudberry 社区
官网:https://cloudberry.apache.org
GitHub: github.com/apache/cloudberry
邮件列表:dev@cloudberry.apache.org
Slack 链接:https://inviter.co/apache-cloudberry
Cloudberry Bootcamp 体验沙箱:https://github.com/apache/cloudberry/tree/main/devops/sandbox
👇🏻️扫码加入 Apache Cloudberry 交流群👇🏻️





