Apache DolphinScheduler + OceanBase，搭建分布式大数据调度平台的实践

海豚调度 2024-11-11

348

本文整理自白鲸开源联合创始人，Apache DolphinScheduler PMC Chair，Apache Foundation Member 代立冬的演讲。主要介绍了DolphinScheduler及其架构、DolphinScheduler与OceanBase 的联合大数据方案。

DolphinScheduler是什么？

Apache DolphinScheduler，作为一款云原生且配备强大的可视化界面的大数据工作流调度平台，可帮助用户简化数据工作流的编排过程，通过高效解决复杂大数据任务间的依赖与触发难题，确保各类大数据任务能够即插即用，融入各类数据分析与数据挖掘场景中，提供全流程可视化操作能力。

目前，已有超过6000家公司在其生产环境中成功部署并应用了Apache DolphinScheduler。

Apache DolphinScheduler 调度平台具备简单易用、架构设计上保证系统高可靠性、高扩展性和云原生能力，拥有丰富的使用场景。

高可靠性

架构设计上，去中心化的多 Master 和多 Worker , 具备高可用能力。
采用任务队列避免过载，不会造成机器卡死。

简单易用

拥有一键部署能力，简化部署，易维护。
可视化界面，所有流程定义都是可视化，通过拖拽任务形成工作流模板。
支持 Open API 、Python 方式与第三方系统对接。

·高扩展性、云原生能力

支持自定义任务类型。
调度能力随集群线性增长。
弹性伸缩， Master 和 Worker 支持动态上下线。

丰富的使用场景

支持暂停恢复及停止等丰富操作。
支持多租户，权限管理等大数据应用场景。
支持 30+ 种任务类型，如 Spark, Flink，Hive, MR, Python, Shell 等。

从 Apache DolphinScheduler 调度平台界面能够看出来，DolphinScheduler 会实时关注任务运行状态，同时，可以直观地看到每个工作流的每个环节，可以轻松在线回溯任务状态。

DolphinSchedule 调度平台采用插件式设计，支持多数据源格式，如OceanBase、MySQL、PostgerSQL、Hive、Impala、Spark、ClickHouse、Oracle、SQLServer、Db2、MongoDB 等可视化的数据源，并支持自由扩展数据源、支持可视化配置。方便数据源统一集中管理，一次配置，到处使用，大大减少配置修改带来的工作量，也方便后续数据血缘关系的处理。

同时，DolphinSchedule 支持多数据源数据的加工、数据导入脚本统一管理，包括 Python、Shell、Jar 包、R 等多种格式。多层级结构确保文件管理层次清晰，不用考虑后续文件应该存储在哪一台机器上，避免资源文件散乱难以维护。

此外，DolphinSchedule 调度系统也十分灵活，满足多种业务场景需要，工作流流程支持多策略启动、优先级、告警配置，任务流程多策略支持确保 ETL 过程可管理：

支持任务失败策略选择，失败继续或结束。
支持多种通知策略，包括失败发送通知、成功发送通知、全部通知、全部不发通知。
支持优先级设定，确保高优先级流程优先执行。
支持选定节点执行 ETL 任务流。
支持串行与并行两种执行方式。

架构解析

下图是 Dolphinscheduler 的架构图，最上面的 UI 是用户可以感受到的界面， Open API
可以给 UI 提供调用接口，也方便第三方对接。

对于 Open API
这一层，调度最关键的是 MasterSever 和 WorkerSever ，MasterSever 的职责是分配任务，WorkerSever 的职责是接受 MasterSever 分的任务，然后执行，最后把执行结果汇报给 MasterSever。

由于担心所有的压力都集中在 Active MasterSever
上，因此做了无中心化的设计架构。

在最初的架构设计中，MasterSever 和 WorkerSever 完全隔离，WorkerSever 拿到任务之后，把任务更新到数据库里面，导致 WorkerSever 对于数据库造成的压力非常大。

比如联通把省公司的数据都汇总到数据中心，有一百多台的 WorkerSever 节点，WorkerSever 又做了数据库的连接池，数据库的压力会非常大。

WorkerSever 负责执行各种工作流，这也是调度系统经常会用到的，我们希望工作流和工作流之间是有设计方法的，比如数仓按照数仓的分层原则，一层一层之间十分地清晰。

此外，我们有一个依赖类型，这个依赖可以跨项目、跨工作流去依赖其他不同频度的任务，比如说一个天任务，依赖一个小时的任务，这里有一个依赖节点就可以了。

整体上有一个注册中心，WorkerSever 都可以接受注册，WorkerSever 挂了，MasterSever 恢复，MasterSever 挂了，有其他的 MasterSever 监听到，其他的 MasterSever 接受它的工作流，进行故障 MasterSever 恢复。

MasterSever 1.0 时代的设计是无中心化的，遇到的问题是如何让 MasterSever 同时工作。我们先设计了一个简单的方式，先抢锁，然后去工作，跟踪的时候发现 Zookeeper 去充当锁，或是 MasterSever 去充当锁，抢锁的时间需要 50 -60 ms，非常慢。

于是，我们又做了设计上的优化，首先是抢锁，抢到锁之后，把整个工作流界面做成一个图，然后去构建工作流，最终再把每个运行的任务形成任务实例。

这是 1.0 时代的设计，后来发现性能比较低。

在 Dolphinscheduler 2.0 时开始找分布式锁，我们根据 MasterSever 的算法，支持多种拓展，来找到它们的槽位。

先去做分片，注册 MasterSever 会生成一个分片编号，Command 是执行的工作流，在去分布式锁的时候进行了这样的一个设计，根据槽位查询数据库，然后会生产工作流的实例，交给 Worker 执行，根据分片的槽位去计算。

1.0 版本对线程的使用非常重，纵使是 8C16G
的机器也需要配置几百个线程。

在 2.0 时代，我们进行了线性模式的拆分、改造。MasterSchedulerService ThreadPool 负责从 Command 表中分片获取要执行的 Command, 构造工作流实例，拆分待执行任务，生成任务实例，提交任务队列，启动WorkFlowExecuteThread
处理。

WorkFlowExecuteThread
工具，负责构建 DAG, DAG 拆分，生成任务实例，提交到任务队列；

同时负责处理任务状态和工作流状态变化，还负责任务/工作流超时监控。

新版本的 Master 端有那些变化呢？