【第六期】| Apache SeaTunnel 每周FAQ 集锦

SeaTunnel 2023-05-22

1185

点击蓝字关注我们

摘要

为了让 Apache SeaTunnel 的广大用户和爱好者对于此项目的疑问得到及时快速的解答，社区特发起此次【每周 FAQ】栏目，希望可以解决大家的实际问题。

关于本栏目的要点：

本栏目每周将通过腾讯文档（每周更新）从社区微信群收集 10-30 个问答，并在每周五整理具有典型代表意义的问答后发布，供大家参考。
所有人均可登录文档并提出问题，每人限 2 个提问，提问范围包括：

关于 Apache SeaTunnel 的使用问题和技术性问题；
在实际应用中遇到的瓶颈问题；
参与社区贡献遇到的困难；
关于社区发展的疑问。

资源有限，请勿提问项目无关问题。
【每周FAQ】是一个社区互助的项目，发起宗旨是鼓励社区成员相互帮助，因此，欢迎大家积极踊跃志愿回答提出的疑问，在腾讯文档中写下答案即可。（高手们都别“潜水”了，出来露一手😜😎）
在社群里已经提问的问题，请勿在文档中重复提问，节约资源。
本栏目招募志愿者，有兴趣参与的小伙伴请加微信小助手 seatunnel1 报名。

FAQ（5月3日-5月12日）

问

MySQL CDC 到 MySQL 数据同步的时候， SeaTunnel任务停止后，源表有删除操作，再启动SeaTunnel任务，delete操作同步不过去，这种情况怎么解决呢？

使用 savepoint 停止，再使用 reSeaTunnelore 恢复 job 才会带状态启动，bin/SeaTunnel.sh 看命令参数。

答

原则上没有问题，但是有小伙伴发现部分版本升级的时候存在问题，建议先1.3升级2.0.4，然后升级到3。

问

DolphinScheduler 3.1.4去 ZK 依赖了吗？

答

重新编译的DolphinScheduler 3.1.4支持cdh版本zk3.4.5，不依赖原来默认的zk3.8，主要是用到数据质量的，主要是解决多版本zk的依赖的问题。后面想解决打包的问题，可以用这个命令mvn clean install -Prelease -Dzk-3.4 -Dmaven.test.skip=true。

问

User-subscribe 邮件订阅好像有问题？

答

发送邮件到 dev-subscribe@dolphinscheduler.apache.org

问

SeaTunnel的Transformer能分流和合流么？

SeaTunnel分流不需要Transform来做，可以通过两个Sink的source_table_name指向同一个Source的result_table_name来进行分流。

答

可以开发编译，但不能运行。要基于DS做二开，建议开个虚拟机做debug开发。

问

有本地搭建 DolphinScheduler 的文档吗？

答

有的，体验的话可以看看官网的standalone安装 https://dolphinscheduler.apache.org/zh-cn/docs/1.3.3/standalone-deployment

问

psmisc 在DolphinScheduler中有啥用处啊？

答

这是停止工作流按钮需要的，kill 任务实例。

问

SeaTunnel Web 版计划大致什么时候发布呢？

5月底差不多能在dev里看到。

答

可以开发编译，但不能运行。要基于DS做二开，建议开个虚拟机做debug开发。

问

有本地搭建 DolphinScheduler 的文档吗？

答

有的，体验的话可以看看官网的standalone安装 https://dolphinscheduler.apache.org/zh-cn/docs/1.3.3/standalone-deployment

问

psmisc 在DolphinScheduler中有啥用处啊？

答

这是停止工作流按钮需要的，kill 任务实例。

问

往MySQL导数据，导的过程MySQL服务器宕机，服务器重启后，想让数据接着续传，这种场景SeaTunnel支持吗？怎么配置？

这在SeaTunnel中叫断点续传功能，断点续传功能不需要特殊的配置，如果作业支持断点续传，可以在作业失败后使用 sh seatunnel.sh -c ${上一次提交的jobconfig文件路径} -r ${jobId} 来恢复这个作业。要判断这个作业是否能断点续传，可以看官网文档这个连接器是否支持exectly-once特性，如果支持就是可以断点续传，如果不支持，就不能断点续传（注意，需要Source和Sink连接器都支持exectly-once特性）。

答

还可以xsync分发文件。

问

DolphinScheduler是必须新建一个用户来调度吗，还是说root用户也OK？

答

最好建一个DolphinScheduler的账号，并有sudo权限，因为有时候你用root用户调度的东西有些危险。

问

如何用DolphinScheduler来调度SeaTunnel任务？

答

如果要使用SeaTunnel v2的话，需要升级到DolphinScheduler 3.1（可以试试看）。

问

断点续传哪儿能找到示例？

断点续传不需要专门配置，只要source支持exctly-once 然后sink支持exectly-once或者主键去重，这个作业就可以断点续传，只需要在作业失败后，使用sh SeaTunnel.sh -c -r 命令就能恢复上次失败的作业。

答

问

SeaTunnel 是必须依赖Hadoop环境吗？

如果用SeaTunnel Zeta引擎就不用。

答

问

使用SeaTunnel的自带引擎Zeta，恢复作业继续运行，就是使用 savepoint 去恢复任务，运行如何？

这个只有SeaTunnelandalone模式下才支持，local模式下不支持。

答

问

能否适配支持下国产神通数据库呢？

目前没有，可以自己开发对应的数据库插件，欢迎贡献。

答

问

SeaTunnel的web和DS的web如何结合？

SeaTunnel web还未发版，和DS web的结合目前设计正在进行中。

答

问

SeaTunnel的web是否支持企微，飞书告警推送，可否查看对应的log,读写速度，进度等？

SeaTunnel web应该只专注于任务的定义和简单的任务运行，真正生产上的调度运行和任务告警需要结合对应的调度系统来完成。

答

问

本地模式可以多个同时运行么？我测试是先开 MySQL cdc 同步到 clickhouse，然后在用 fakesourse 写数到MySQL，写数据运行遇到问题，提示 HazelcaSeaTunnel cannot SeaTunnelart。

2.3.1版本可以通过修改hazelcaSeaTunnel.yaml文件中的端口自增参数为true来解决这个问题。dev分支和马上要发布的2.3.2版本会解决这个问题。

答

问

SeaTunnel v1版本能使用Spark3吗？我们这边有一些HBase ingeSeaTunnelion的需求，如果直接使用SeaTunnel v2做，source和sink因为SeaTunnel row的框架，Spark很多高级API都无法使用。

SeaTunnel社区未来应该会专注于V2版本的连接器，V1版本目前已不再添加新的功能。

答

Apache SeaTunnel

Apache SeaTunnel(Incubating) 是一个分布式、高性能、易扩展、用于海量数据（离线&实时）同步和转化的数据集成平台

仓库地址：

https://github.com/apache/incubator-seatunnel

网址：

https://seatunnel.apache.org/

Proposal：

https://cwiki.apache.org/confluence/display/INCUBATOR/SeaTunnelPro

Apache SeaTunnel(Incubating) 下载地址：

https://seatunnel.apache.org/download

衷心欢迎更多人加入！

我们相信，在「Community Over Code」（社区大于代码）、「Open and Cooperation」（开放协作）、「Meritocracy」（精英管理）、以及「多样性与共识决策」等 The Apache Way 的指引下，我们将迎来更加多元化和包容的社区生态，共建开源精神带来的技术进步！

我们诚邀各位有志于让本土开源立足全球的伙伴加入 SeaTunnel 贡献者大家庭，一起共建开源!

提交问题和建议：

https://github.com/apache/incubator-seatunnel/issues

贡献代码：

https://github.com/apache/incubator-seatunnel/pulls

订阅社区开发邮件列表 :

dev-subscribe@seatunnel.apache.org

开发邮件列表：

dev@seatunnel.apache.org

加入 Slack:

https://join.slack.com/t/apacheseatunnel/shared_invite/zt-1cmonqu2q-ljomD6bY1PQ~oOzfbxxXWQ

关注 Twitter: