点击蓝字
关注我们

嘉宾介绍
雷宝鑫
网易邮箱 大数据工程师
1
项目背景与选型
Part.01
网易邮件发展史

Part.02
数据应用场景

Part.03
选型背景与
DolphinScheduler优势

2
平台部署与使用现状
Part.01
基于DS的升级改造之路

Part.02
数据架构与使用现状

Part.03
任务类型与应用支撑

3
集成数据分发功能与优化实践
Part.01
集成数据分发功能
数据处理需求频繁
非研发人员数据处理需求频繁,需要数据开发人员支持。中间表构建意愿低
产品和QA对中间表的构建意愿低,对他们来说耗时较长。数据同步配置存在门槛
异构数据源间的数据同步任务配置存在门槛,需要专门的数开支持。同步任务开发流程较长
完整的数据同步任务开发流程较长,涉及表创建、同步配置创建、调度任务创建等步骤。



Part.02
优化离线调度方式,
提升故障恢复能力

DependentExecute类中
getModelDependResult方法的等待及失败信号处理逻辑进行了重新设计。当依赖任务状态为
FAILED时,将
dependResultList中的状态改为
WAITING,从而使下游任务获取到的是
WAITING状态而非
FAILED状态。



Part.03
SeaTunnel组件集成与优化,
数据同步提效

Part.04
实现原理

IConfigGenerator接口实现各数据源生成Source和Sink的逻辑,最终通过
SeatunnelConfigGenerator类生成最终的ST配置。

Part.05
部署与调优


4
项目实践案例:任务迁移与资源隔离
Part.01
猛犸平台任务向海豚调度的
高效迁移

任务依赖关系图

Part.02
Worker group隔离实践


5
总结与展望
Part.01
实践总结
Part.02
平台价值与效益
Part.03
经验分享与启示
Part.04
未来展望
拥抱AI:结合AI及LLM能力,实现更加智能化、易用的数据处理ETL流程,提升数据处理的自动化和智能化水平。 数据治理:整合DolphinScheduler调度数据和内部的元数据中心,实现智能的数据/任务血缘和数据地图的采集和分析,为数据治理提供有力支持。 平台优化:进一步优化DolphinScheduler平台的性能和功能,提升平台的稳定性和可靠性,以更好地满足日益增长的数据处理需求。 拥抱DATA OPS:实现DolphinScheduler平台和其他数据平台系统的集成和整合,推动数据集成和传输的自动化,构建更加高效的数据生态系统。

6
写在最后

用户案例
迁移实战
发版消息
加入社区
关注社区的方式有很多:
GitHub: https://github.com/apache/dolphinscheduler 官网:https://dolphinscheduler.apache.org/en-us 订阅开发者邮件:dev@dolphinscheduler@apache.org X.com:@DolphinSchedule YouTube:https://www.youtube.com/@apachedolphinscheduler Slack:https://join.slack.com/t/asf-dolphinscheduler/shared_invite/zt-1cmrxsio1-nJHxRJa44jfkrNL_Nsy9Qg
同样地,参与Apache DolphinScheduler 有非常多的参与贡献的方式,主要分为代码方式和非代码方式两种。
📂非代码方式包括:
完善文档、翻译文档;翻译技术性、实践性文章;投稿实践性、原理性文章;成为布道师;社区管理、答疑;会议分享;测试反馈;用户反馈等。
👩💻代码方式包括:
查找Bug;编写修复代码;开发新功能;提交代码贡献;参与代码审查等。


你的好友秀秀子拍了拍你
并请你帮她点一下“分享”
文章转载自海豚调度,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。







