关键词:大数据、数据集成、数据调度
整体说明
在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些使用Datax做数据集成的实际经验,分享如下。
一、前置条件
Datax安装: 见 《Datax安装步骤及优劣势分析》 在同一台服务器: DolphinScheduler 需要执行 Python 来调用 Datax,无法跨服务器,所以 Datax 需要和 DolphinScheduler 在同一台服务器上
二、环境配置
DolphinScheduler 环境配置 Datax
按照如图顺序依次点击新增 Datax环境

在编辑页面填写 Python 执行路径 和 Datax执行路径,具体内容如下:
export PYTHON_LAUNCHER=/usr/bin/python
export DATAX_LAUNCHER=/home/datax/bin/datax.py配置结果如下

三、数据集成配置
3.1、源中心
来源数据库: 配置好来源数据库连接 目的数据库: 配置好目的数据库连接
3.2、Datax任务配置
创建工作流

添加 Datax 组件
配置名称 和 环境信息

配置来源库及自定义SQL 和 目的库目的表

保存,之后,保存任务,上线任务
运行测试任务,运行成功

查看日志,数据集成成功

四、方案优势
可视化配置页面: 在可视化页面配置自定义SQL.来选择源表字段,再也不用编辑 Datax 自带的 JSON 文件了 服务器无侵入性: 当我们编辑 Datax 自带的 JSON 文件时,不可避免的需要服务器的相关权限,需要上传文件等,对服务器有侵入性,一般生产环境,没有这么高的权限 开源方案,成本低: 无论是Datax 还是 DolphinScheduler 都是开源产品,不需要额外付钱

用户案例
迁移实战
发版消息
加入社区
关注社区的方式有很多:
GitHub: https://github.com/apache/dolphinscheduler 官网:https://dolphinscheduler.apache.org/en-us 订阅开发者邮件:dev@dolphinscheduler@apache.org X.com:@DolphinSchedule YouTube:https://www.youtube.com/@apachedolphinscheduler Slack:https://join.slack.com/t/asf-dolphinscheduler/shared_invite/zt-1cmrxsio1-nJHxRJa44jfkrNL_Nsy9Qg
同样地,参与Apache DolphinScheduler 有非常多的参与贡献的方式,主要分为代码方式和非代码方式两种。
📂非代码方式包括:
完善文档、翻译文档;翻译技术性、实践性文章;投稿实践性、原理性文章;成为布道师;社区管理、答疑;会议分享;测试反馈;用户反馈等。
👩💻代码方式包括:
查找Bug;编写修复代码;开发新功能;提交代码贡献;参与代码审查等。


你的好友秀秀子拍了拍你
并请你帮她点一下“分享”
文章转载自海豚调度,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。






