暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Apache DolphinScheduler DataX 数据集成:新手入门全攻略

海豚调度 2025-08-05
1593

关键词:大数据、数据集成、数据调度

整体说明

在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些使用Datax做数据集成的实际经验,分享如下。

一、前置条件

  • Datax安装: 见 《Datax安装步骤及优劣势分析》
  • 在同一台服务器: DolphinScheduler 需要执行 Python 来调用 Datax,无法跨服务器,所以 Datax 需要和 DolphinScheduler 在同一台服务器上

二、环境配置

  • DolphinScheduler 环境配置 Datax

    按照如图顺序依次点击新增 Datax环境

    在编辑页面填写 Python 执行路径 和 Datax执行路径,具体内容如下:

    export PYTHON_LAUNCHER=/usr/bin/python
    export DATAX_LAUNCHER=/home/datax/bin/datax.py

    配置结果如下

三、数据集成配置

3.1、源中心

  • 来源数据库: 配置好来源数据库连接
  • 目的数据库: 配置好目的数据库连接

3.2、Datax任务配置

  • 创建工作流
  • 添加 Datax 组件

    配置名称 和 环境信息

    配置来源库及自定义SQL 和 目的库目的表

    保存,之后,保存任务,上线任务

  • 运行测试任务,运行成功

  • 查看日志,数据集成成功

四、方案优势

  • 可视化配置页面: 在可视化页面配置自定义SQL.来选择源表字段,再也不用编辑 Datax 自带的 JSON 文件了
  • 服务器无侵入性: 当我们编辑 Datax 自带的 JSON 文件时,不可避免的需要服务器的相关权限,需要上传文件等,对服务器有侵入性,一般生产环境,没有这么高的权限
  • 开源方案,成本低: 无论是Datax 还是 DolphinScheduler 都是开源产品,不需要额外付钱





用户案例



Zoom网易邮箱 每日互动 惠生工程  作业帮 
博世智驾 蔚来汽车 长城汽车集度长安汽车
思科网讯食行生鲜联通医疗联想
新网银行唯品富邦消费金融 
自如有赞伊利当贝大数据
珍岛集团传智教育Bigo
YY直播  拈花云科太美医疗
Cisco Webex兴业证券




迁移实战



Azkaban   Ooize(当贝迁移案例)
Airflow (有赞迁移案例)
Air2phin(迁移工具)
Airflow迁移实践



发版消息




Apache DolphinScheduler 3.2.2版本正式发布!
Apache DolphinScheduler 3.2.1 版本发布:增强功能与安全性的全面升级
Apache DolphinScheduler 3.3.0 Alpha发布,功能增强与性能优化大升级!




加入社区



关注社区的方式有很多:

  • GitHub: https://github.com/apache/dolphinscheduler
  • 官网:https://dolphinscheduler.apache.org/en-us
  • 订阅开发者邮件:dev@dolphinscheduler@apache.org
  • X.com:@DolphinSchedule
  • YouTube:https://www.youtube.com/@apachedolphinscheduler
  • Slack:https://join.slack.com/t/asf-dolphinscheduler/shared_invite/zt-1cmrxsio1-nJHxRJa44jfkrNL_Nsy9Qg

同样地,参与Apache DolphinScheduler 有非常多的参与贡献的方式,主要分为代码方式和非代码方式两种。

📂非代码方式包括:

完善文档、翻译文档;翻译技术性、实践性文章;投稿实践性、原理性文章;成为布道师;社区管理、答疑;会议分享;测试反馈;用户反馈等。

👩‍💻代码方式包括:

查找Bug;编写修复代码;开发新功能;提交代码贡献;参与代码审查等。

贡献第一个PR(文档、代码) 我们也希望是简单的,第一个PR用于熟悉提交的流程和社区协作以及感受社区的友好度。

社区汇总了以下适合新手的问题列表https://github.com/apache/dolphinscheduler/pulls?q=is%3Apr+is%3Aopen+label%3A%22first+time+contributor%22

优先级问题列表https://github.com/apache/dolphinscheduler/pulls?q=is%3Apr+is%3Aopen+label%3Apriority%3Ahigh

如何参与贡献链接https://dolphinscheduler.apache.org/zh-cn/docs/3.2.2/%E8%B4%A1%E7%8C%AE%E6%8C%87%E5%8D%97_menu/%E5%A6%82%E4%BD%95%E5%8F%82%E4%B8%8E_menu

如果你❤️小海豚,就来为我点亮Star吧!

https://github.com/apache/dolphinscheduler


你的好友秀秀子拍了拍你

并请你帮她点一下“分享”


文章转载自海豚调度,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论