暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Apache SeaTunnel Committer专访刘乃杰 | 用开源推动数据同步工具的创新

SeaTunnel 2024-09-11
145

作者:刘乃杰

编辑整理:曾辉

今天,我们有幸采访到了Apache SeaTunnel社区的新提名Committer
刘乃杰,作为社区的活跃贡献者,一直为项目的发展和创新方面做着许多重要的贡献。

让我们一起走进他的开源故事,了解他与Apache SeaTunnel的结缘,以及对数据同步工具未来的展望。

👤个人介绍

  • 姓名:刘乃杰
  • GitHub ID:liunaijie
  • 擅长领域:大数据处理与数据同步,深入研究数据同步平台已有几年时间。
  • 兴趣爱好:热爱编程与技术分享,闲暇时喜欢阅读与户外运动。

作为一名在大数据领域不断探索的技术专家,刘乃杰不仅在公司内部推动了数据同步项目的实施,也在Apache SeaTunnel开源社区贡献了宝贵的代码与经验。

🛠️为社区做出的哪些贡献?

在加入Apache SeaTunnel社区之后,我主要为SeaTunnel的SQL Transform
模块贡献了嵌套结构查询的支持,还添加了对AVRO
文件格式的兼容。

另外,我为系统引入了Tag
支持,用来实现资源隔离,这让多个任务可以更加高效地并行执行。

这些功能的实现使得SeaTunnel的灵活性和扩展性得到了进一步提升,感兴趣的小伙伴也可以看看下面PR
的链接,想进一步交流的朋友也欢迎来社区👏找我交流!

Frist PR https://github.com/apache/seatunnel/pull/4660 支持avro格式 https://github.com/apache/seatunnel/pull/5084 sql嵌套结构查询 https://github.com/apache/seatunnel/pull/6484 Tag资源隔离 https://github.com/apache/seatunnel/pull/7045 添加docker镜像 https://github.com/apache/seatunnel/pull/7346

怎么了解SeaTunnel并选择他?

我与Apache SeaTunnel结缘的契机来自于我对数据同步工具的研究。

当时,我正在寻找一款能够统一处理不同系统数据同步的工具,在调研数据同步工具时,我对比过DataX和FlinkCDC。我发现,SeaTunnel不仅支持更多的数据源,还可以通过多个引擎运行,这让它在复杂的同步场景中显得更加灵活和高效。

所以,在实际的项目调研选型中,最后选择了SeaTunnel,并通过它解决了数据同步中的一些挑战。

为什么参与开源?

我参与开源社区已经有两年了。开源对我最大的吸引力就是当提交的代码被其他开发者使用并认可时,那种成就感和自豪感是无法言喻的。

通过开源不仅能够贡献自己的代码,还能学习到世界各地开发者的最佳实践和创新思路,这让我受益匪浅。


所在公司是否使用过 SeaTunnel?

我司目前已经在使用SeaTunnel,主要应用场景是多个存储系统的数据同步和多机房之间相同系统的数据同步。

基于Apache SeaTunnel的多引擎,我们已经逐步推进了这些场景的应用。SeaTunnel的稳定性和灵活性,使得我们能够高效地处理跨平台和跨区域的数据传输。

🔧有基于SeaTunnel二开吗?

在我们公司的项目中,我们基于Apache SeaTunnel的同步引擎以及其他的同步方案,正在开发一个数据同步平台

用户只需要在页面上配置同步任务,底层引擎的复杂操作全部由系统处理,无需用户关注。大部分的同步任务都是通过SeaTunnel运行的,我们还开发了与调度系统对接的插件,用来定时提交批量同步任务。

此外,我们对一些连接器做了定制化的优化,以适应公司内部的特殊需求。

💬SeaTunnel社区初印象

主要还是社区的活跃度。社区里有很多技术讨论,大家都非常乐于分享自己的经验和想法。我从这些讨论中学到了很多宝贵的知识和好点子,也通过阅读别人的PR提升了自己的技术水平。

如果你喜欢技术,我建议一定要往社区贡献者、Committer
方向发展,你会有很多意想不到的收获!

数据同步工具最关键的需求是什么?

我认为,一款优秀的数据同步工具,最关键的是数据的准确性。在这方面,Apache SeaTunnel做得很好,它提供了多种监控指标,包括表级的监控,帮助我们掌控数据同步的全过程。

其次是性能,在相同的数据量下,如何比其他工具更快、更高效,这也是我非常关注的点。

希望未来社区可以支持连接器的动态更新,这样就不需要重新部署整个系统来更新或修复连接器。

此外,在同步过程中,遇到脏数据时,程序会直接退出。我认为可以增加一个脏数据处理策略,让程序根据设置的阈值来决定是否继续运行,这样可以提高容错能力。

希望社区还能带来什么帮助?

我的诉求要求不算很高,,其实就是希望能学习到更多关于数据同步的前沿技术和实践经验。同时,也希望能够在社区中结识更多志同道合的开发者,和大家一起推动技术的进步。

以上这就是我在Apache SeaTunnel社区的开源旅程和思考,希望我的分享能对你有所启发。一起加油吧!💪


同步Demo

 MySQL→Doris
MySQLCDC
MySQL→Hive
 HTTP → Doris 

新手入门

 SeaTunnel 让数据集成变得 So easy!  3 分钟入门指南
从 0 到 1 快速入门 Apache SeaTunnel 
初探 Apache SeaTunnel / 深入理解 Apache SeaTunnel

 MySQL 同步到 Hive / 从MySQL同步到StarRocks
通过 SeaTunnel 将数据写入 OSS-HDFS 
MySQL 到 Elasticsearch 实时同步解决方案

启动 SeaTunnel / 3 分钟部署 SeaTunnel Zeta 
 部署 Apache SeaTunnel 分布式集群
Apache SeaTunnel Web部署指南
基于Apache SeaTunnel构建CDC数据同步管道
【用户投稿】Apache SeaTunnel 2.3.3+Web 1.0.0版本安装部署
【安装部署】Apache SeaTunnel 和 Web快速安装详解
【保姆级教程】使用SeaTunnel同步Kafka的数据到ClickHouse
【数据同步】SeaTunnel初体验,5000字深入浅出带你用上Oracle-CDC

最佳实践

 OPPO 清风 天翼云 马蜂窝
孩子王 哔哩哔哩 唯品会
众安保险 兆原数通 亚信科技
映客 翼康济世 信也科技

测试报告


 性能测试报告:SeaTunnel 批量同步数据比 GLUE 快 420%!
最新性能对比报告:SeaTunnel 是 Airbyte 30 倍!
比DataX快20%!SeaTunnel同步计算引擎性能测试全新发布
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

源码解析


Apache SeaTunnel Zeta引擎源码解析(一) Server端的初始化
从启动到关闭 | SeaTunnel2.1.1源码解析
SeaTunnel 2.1.2 封装 Flink 连接数据库的源码解析
那些年,我们在Apache SeaTunnel 2.1.0部署中踩过的坑【含源码分析】


Apache SeaTunnel





Apache SeaTunnel 是一个分布式、高性能、易扩展、用于海量数据(离线&实时)同步和转化的数据集成平台


仓库地址: 
https://github.com/apache/seatunnel

网址:
https://seatunnel.apache.org/

Apache SeaTunnel 下载地址:
https://seatunnel.apache.org/download
衷心欢迎更多人加入!

我们相信,在「Community Over Code」(社区大于代码)、「Open and Cooperation」(开放协作)、「Meritocracy」(精英管理)、以及「多样性与共识决策」等 The Apache Way 的指引下,我们将迎来更加多元化和包容的社区生态,共建开源精神带来的技术进步!

我们诚邀各位有志于让本土开源立足全球的伙伴加入 SeaTunnel 贡献者大家庭,一起共建开源!

提交问题和建议:
https://github.com/apache/seatunnel/issues

贡献代码:
https://github.com/apache/seatunnel/pulls

订阅社区开发邮件列表 : 
dev-subscribe@seatunnel.apache.org

开发邮件列表:
dev@seatunnel.apache.org

加入 Slack:
https://join.slack.com/t/apacheseatunnel/shared_invite/zt-1kcxzyrxz-lKcF3BAyzHEmpcc4OSaCjQ

关注 Twitter: 
https://twitter.com/ASFSeaTunnel


文章转载自SeaTunnel,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论