暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业?

海豚调度 2025-07-15
172

点击蓝字,关注我们

DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统,能高效地执行和管理大数据流程。用户可以在DolphinScheduler Web界面轻松创建、编辑和调度云原生数据仓库 AnalyticDB MySQL 版的Spark作业。


1

前提条件


  • AnalyticDB for MySQL集群的产品系列为企业版、基础版或湖仓版。

  • AnalyticDB for MySQL集群中已创建Job型资源组或Spark引擎的Interactive型资源组。

  • 已安装JDK,且JDK的版本为1.8及以上版本。

  • 已安装DolphinScheduler。

  • 已将运行DolphinScheduler的服务器IP地址添加至AnalyticDB for MySQL集群的白名单中。



2

调度Spark SQL作业


AnalyticDB for MySQL支持使用批处理和交互式两种方法执行Spark SQL。选择的执行方式不同,调度的操作步骤也有所不同。详细步骤如下:

批处理

  1. 安装Spark-Submit命令行工具并配置相关参数。

说明:您只需要配置keyId、secretId、regionId、clusterId和rgName这些必填参数。

2. 创建项目。

    1. 访问DolphinScheduler Web界面,在顶部导航栏单击项目管理。

    2. 单击创建项目。

    3. 在弹出的创建项目对话框中配置项目名称、所属用户等参数。|

3. 创建工作流

    • 单击已创建的项目名称,进入工作流定义页面。

    • 单击创建工作流,进入工作流DAG编辑页面。

    • 在页面左侧选择SHELL,并将其拖拽到右侧空白画布中。

    • 在弹出的当前节点设置对话框中配置如下参数:

    • 单击确认。

    • 单击页面右上角保存,在弹出的基本信息对话框中配置工作流名称等参数,单击确定。

说明:其他参数说明请参见DolphinScheduler任务参数。

4. 运行工作流。
  • 单击工作流操作列的按钮,上线工作流。

  • 单击工作流操作列的按钮。

  • 在弹出的启动前请先设置参数对话框中,配置对应参数。

  • 单击确定,运行工作流。

5. 查看工作流详细信息。
  • 在左侧导航栏单击任务实例。

  • 在操作列,单击按钮,查看工作流执行结果和日志信息。

交互式

  1. 获取Spark Interactive型资源组的连接地址。

    以下两种情况,您需要单击公网地址后的申请网络,手动申请公网连接地址。

    • 提交Spark SQL作业的客户端工具部署在本地。

    • 提交Spark SQL作业的客户端工具部署在ECS上,且ECS与AnalyticDB for MySQL不属于同一VPC。

    1. 登录云原生数据仓库AnalyticDB MySQL控制台,在左上角选择集群所在地域。在左侧导航栏,单击集群列表,在企业版、基础版或湖仓版页签下,单击目标集群ID。

    2. 在左侧导航栏,单击集群管理 > 资源管理,单击资源组管理页签。

    3. 单击对应资源组操作列的详情,查看内网连接地址和公网连接地址。您可单击端口号括号内的image按钮,复制连接地址。

  2. 创建数据源。

    1. 访问DolphinScheduler Web界面,在顶部导航栏单击数据源中心。

    2. 单击创建数据源,选择数据源类型为Spark。

    3. 在弹出的创建数据源对话框中配置如下参数:

    4. 单击测试连接,测试成功后,单击确定。

说明:其他参数为选填参数,详情请参见MySQL数据源。

3. 创建项目。

    1. 访问DolphinScheduler Web界面,在顶部导航栏单击项目管理。

    2. 单击创建项目。

    3. 在弹出的创建项目对话框中配置项目名称、所属用户等参数。

4. 创建工作流

    1. 单击已创建的项目名称,进入工作流定义页面。

    2. 单击创建工作流,进入工作流DAG编辑页面。

    3. 在页面左侧选择SQL,并将其拖拽到右侧空白画布中。

    4. 在弹出的当前节点设置对话框中配置如下参数:

    5. 单击确认。

    6. 单击页面右上角保存,在弹出的基本信息对话框中配置工作流名称等参数,单击确定。

5. 运行工作流。

    1. 单击工作流操作列的按钮,上线工作流。

    2. 单击工作流操作列的按钮。

    3. 在弹出的启动前请先设置参数对话框中,配置对应参数。

    4. 单击确定,运行工作流。

6. 查看工作流

    1. 查看工作流详细信息。

    1. 在左侧导航栏单击任务实例。

    2. 在操作列,单击image按钮,查看工作流执行结果和日志信息。


3

调度Spark Jar作业


  1. 安装Spark-Submit命令行工具并配置相关参数。

说明:您只需要配置keyId、secretId、regionId、clusterId和rgName这些必填参数。如果您的Spark Jar包在本地,还需要配置ossUploadPath等OSS相关参数。

2. 创建项目。

    1. 访问DolphinScheduler Web界面,在顶部导航栏单击项目管理。

    2. 单击创建项目。

    3. 在弹出的创建项目对话框中配置项目名称、所属用户等参数。

3. 创建工作流

    1. 单击已创建的项目名称,进入工作流定义页面。

    2. 单击创建工作流,进入工作流DAG编辑页面。

    3. 在页面左侧选择SHELL,并将其拖拽到右侧空白画布中。

    4. 在弹出的当前节点设置对话框中配置如下参数:

    5. 单击确认。

    6. 单击页面右上角保存,在弹出的基本信息对话框中配置工作流名称等参数,单击确定。

说明:其他参数说明请参见DolphinScheduler任务参数。

4. 运行工作流。

    1. 单击工作流操作列的按钮,上线工作流。

    2. 单击工作流操作列的按钮。

    3. 在弹出的启动前请先设置参数对话框中,配置对应参数。

    4. 单击确定,运行工作流。

5. 查看工作流

    1. 查看工作流详细信息。

    1. 在左侧导航栏单击任务实例。

    2. 在操作列,单击按钮,查看工作流执行结果和日志信息。





用户案例



网易邮箱 每日互动 惠生工程  作业帮 
博世智驾 蔚来汽车 长城汽车集度长安汽车
思科网讯食行生鲜联通医疗联想
新网银行唯品富邦消费金融 
自如有赞伊利当贝大数据
珍岛集团传智教育Bigo
YY直播  三合一太美医疗
Cisco Webex兴业证券




迁移实战



Azkaban   Ooize(当贝迁移案例)
Airflow (有赞迁移案例)
Air2phin(迁移工具)
Airflow迁移实践



发版消息




Apache DolphinScheduler 3.2.2版本正式发布!
Apache DolphinScheduler 3.2.1 版本发布:增强功能与安全性的全面升级
Apache DolphinScheduler 3.3.0 Alpha发布,功能增强与性能优化大升级!




加入社区



关注社区的方式有很多:

  • GitHub: https://github.com/apache/dolphinscheduler
  • 官网:https://dolphinscheduler.apache.org/en-us
  • 订阅开发者邮件:dev@dolphinscheduler@apache.org
  • X.com:@DolphinSchedule
  • YouTube:https://www.youtube.com/@apachedolphinscheduler
  • Slack:https://join.slack.com/t/asf-dolphinscheduler/shared_invite/zt-1cmrxsio1-nJHxRJa44jfkrNL_Nsy9Qg

同样地,参与Apache DolphinScheduler 有非常多的参与贡献的方式,主要分为代码方式和非代码方式两种。

📂非代码方式包括:

完善文档、翻译文档;翻译技术性、实践性文章;投稿实践性、原理性文章;成为布道师;社区管理、答疑;会议分享;测试反馈;用户反馈等。

👩‍💻代码方式包括:

查找Bug;编写修复代码;开发新功能;提交代码贡献;参与代码审查等。

贡献第一个PR(文档、代码) 我们也希望是简单的,第一个PR用于熟悉提交的流程和社区协作以及感受社区的友好度。

社区汇总了以下适合新手的问题列表https://github.com/apache/dolphinscheduler/pulls?q=is%3Apr+is%3Aopen+label%3A%22first+time+contributor%22

优先级问题列表https://github.com/apache/dolphinscheduler/pulls?q=is%3Apr+is%3Aopen+label%3Apriority%3Ahigh

如何参与贡献链接https://dolphinscheduler.apache.org/zh-cn/docs/3.2.2/%E8%B4%A1%E7%8C%AE%E6%8C%87%E5%8D%97_menu/%E5%A6%82%E4%BD%95%E5%8F%82%E4%B8%8E_menu

如果你❤️小海豚,就来为我点亮Star吧!

https://github.com/apache/dolphinscheduler


你的好友秀秀子拍了拍你

并请你帮她点一下“分享”

文章转载自海豚调度,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论