暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

Apache Paimon 毕业成为顶级项目,数据湖步入实时新篇章!

sg1234 2024-04-18
263

北京时间 2024 年 4 月 16日,开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache Paimon 毕业成为 Apache 顶级项目(TLP, Top Level Project)。经过社区的共同努力和持续创新,Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破,数据湖步入实时新篇章!

Apache 官方博客发布了 Apache Paimon 毕业的消息:


(Apache 官网部分截图)


Apache Paimon 成长历史

Apache Paimon 原名 Flink Table Store,2022年1月在 Apache Flink 社区从零开始研发,Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。
2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,正式进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon,一个真正面向 Streaming 以及 Realtime 的数据湖存储项目。之后在导师 Yu Li、Becket Qin、Stephan Ewen、 Robert Metzger 的指导下,由孵化器管理委员会成员进行辅导和孵化。

2024 年 3 月 20 日,Apache 董事会通过 Apache Paimon 毕业决议,结束了为期一年的孵化,正式确定 Apache  Paimon 成为 Apache 顶级项目。

孵化的一年间,Paimon 社区的贡献者和关注者都获得了非常大的提升。


图片


Paimon 在这一年里发布了四个大版本,并在大量企业生产实践中使用,包括 阿里巴巴、字节跳动、同程旅行、蚂蚁集团、中国联通、网易、中原银行、汽车之家、平安证券、喜马拉雅等企业,广泛应用于实时数据湖的构建,帮助数据库更好的 CDC 入湖,帮助构建近实时流式湖仓,帮助企业提升数据时效性价值,获取业务实时化效果。

核心能力

Apache Paimon 是一个湖格式,结合 Flink 及 Spark 构建流批处理的实时湖仓一体架构。Paimon 创新的结合湖格式与 LSM 技术,给数据湖带来了实时流更新以及完整的流处理能力。

在过去的孵化期间,Paimon 通过技术创新不断克服挑战,展现出了以下关键特性:

实时入湖能力增强:Paimon 提供了一系列的入湖工具,自动同步 Schema 变更,允许快速将包括 MySQL 在内的多种数据库系统的实时变化同步至数据湖,即便在千万级数据规模下也能保持高效率与低延迟。

湖上批流一体处理:Paimon 结合 Flink 提供完整的流处理能力,结合 Spark 提供完整的批处理能力。基于统一的数据湖存储,提供数据口径一致的批流一体处理,提高易用性并降低成本。

全面生态集成拓展:Paimon 已经与众多开源工具和技术栈紧密集成,支持大数据典型计算引擎,包括 Flink、Spark、Hive、Trino、Presto、StarRocks、Doris 等等,统一存储,计算无边界。

湖仓存储格式革新:Paimon 持续创新,引入新功能,在流批技术处理的基础上,提出 Deletion Vectors 和索引来增强查询性能,在分钟级时效性基础上满足流、批、OLAP 等场景的全方位支持。

Apache Paimon 的毕业意味着该项目已经在社区治理、代码质量、文档完善度以及用户采用度等方面达到了 Apache 社区严格的标准要求,得到了广泛认可。这将进一步加速项目的普及与应用,推动实时数据湖技术在全球范围内的广泛应用。




原本转载地址       https://mp.weixin.qq.com/s/MqJtqyOGlwgBHFsnRnOm9w  

最后修改时间:2024-04-18 10:15:56
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论