
点击蓝字,关注我们

作者 | Alireza Sadeghi
译自Practical Data Engineering
引言
工具选择标准

开源生态现状(2025年)
许可协议挑战与行业贡献
许可协议争议:Redis、CockroachDB、ElasticSearch、Kibana等老牌项目转向更封闭的许可协议(Elastic随后宣布回归开源)。 行业巨头贡献:Snowflake贡献Polaris、Databricks开源Unity Catalog、OneHouse捐赠Apache XTable、Netflix发布Maestro,彰显企业对开源的支持。
基金会动态
Apache基金会:持续孵化前沿项目,包括Apache XTable(通用表格式)、Apache Amoro(湖仓管理)、Apache HoraeDB(时序数据库)、Apache Gravitino(数据目录)、Apache Gluten(中间件)和Apache Polaris(数据目录)。 Linux基金会:托管Delta Lake、Amundsen、Kedro、Milvus、Marquez等明星项目,2024年新增vLLM(加州大学伯克利分校捐赠)和OpenSearch(从AWS移交)。
开源模式之争:Open Core vs Open Foundation
九大核心分类概览
存储系统:OLTP、OLAP及专用存储引擎 数据湖平台:湖仓架构工具 数据处理与集成:批流处理框架与Python工具 工作流编排与DataOps:流水线编排与数据运营管理 数据集成:数据摄取与CDC工具 数据基础设施:容器编排与监控组件 ML/AI平台:机器学习与向量数据库 元数据管理:数据目录与治理 分析与可视化:BI工具与可视化框架
1、存储系统

OLAP扩展与HTAS架构:
PostgreSQL生态涌现OLAP扩展(如MotherDuck的pg_duckdb、Crunchy Data的pg_parquet),将OLTP数据库升级为支持数据湖的HTAS(混合事务分析存储)系统。
零磁盘架构崛起:
基于S3等远程存储的架构成为主流,SlateDB、Apache HoraeDB等新系统原生支持,Apache Doris、StarRocks等老牌系统2024年跟进。
其他亮点: Redis闭源后,Valkey成为最受关注的开源替代品,获Google Memorystore和Amazon ElastiCache支持。 PostgreSQL生态的Elasticsearch替代品ParadeDB、流式存储系统Proton和Fluss推动流批融合。
2、数据湖平台



原生表数据库兴起
一些值得关注的例子包括:
Delta-rs:这是一个原生的 Rust 库,用于 Delta Lake,并提供了 Python 绑定。它允许开发者直接操作 Delta Lake 表,而无需依赖 Java 或 Apache Spark。 Hudi-rs:这是 Apache Hudi 的原生 Rust 实现,同样提供了 Python API。它使 Python 和 Rust 生态系统中的开发者能够更轻松地访问 Hudi 表,而无需依赖 Apache Spark、Java 或 Hadoop。 PyIceberg:这是一个正在发展的 Python 库,旨在增强对 Iceberg 表格式的访问能力,使其能够在默认的 Spark 引擎之外使用。
3、数据处理与集成
单节点处理的崛起

流处理

Python处理框架
4、工作流编排与DataOps
数据质量
数据版本控制
数据转换
5、数据集成

变更数据捕获(CDC)框架
事件中心(流式发布/订阅服务)
6、数据基础设施
7、机器学习/人工智能平台

8、元数据管理
9、分析与可视化

BI即代码解决方案
可组合BI堆栈

MPP查询引擎
未来展望与结论
开放表格格式领域的进一步整合 实时和事务性系统中零磁盘架构的持续演变 提供统一湖仓体验的追求 LLMOps和AI工程的崛起 数据湖仓生态系统在开放目录集成和本地库开发等领域的扩展 单节点数据处理和嵌入式分析的日益关注

·END·

用户案例
迁移实战
发版消息
加入社区
参与Apache DolphinScheduler 社区有非常多的参与贡献的方式,主要分为代码方式和非代码方式两种。
📂非代码方式包括:
完善文档、翻译文档;翻译技术性、实践性文章;投稿实践性、原理性文章;成为布道师;社区管理、答疑;会议分享;测试反馈;用户反馈等。
👩💻代码方式包括:
查找Bug;编写修复代码;开发新功能;提交代码贡献;参与代码审查等。


你的好友秀秀子拍了拍你
并请你帮她点一下“分享”
文章转载自海豚调度,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。






