1 .一种实现数据血缘的方法,其特征在于,具有如下步骤:
S1、建立批流任务;
S2、获取上行业务系统的数据血缘信息;
S3、获取从数据湖到标准层的集成任务详情;
S4、获取下行业务系统的数据血缘信息。
2 .根据权利要求1所述的一种实现数据血缘的方法,其特征在于,在步骤S1中,上行系
统为业务源到数据湖的数据流转,中枢系统为数据湖到标准层的数据流转,下行系统为标
准层到主题层、指标层以及对外提供API服务的数据流转;
数据的流转基于批流任务的执行,需要记录任务信息以及字段的映射;
建立集成任务之前,将业务源库ID、业务源库名称、任务名称、任务状态、任务类型、源
表名称、目标表名称、字段映射、任务详情信息保存到T_DRM_DI_TASK系统表里。
3 .根据权利要求2所述的一种实现数据血缘的方法,其特征在于,构建源表、源字段的
属性以及对应的目标表、目标字段的属性,任务的ID和T_DRM_DI_TASK表里的WID对应,保存
到T_DRM_DI_TASKDETAIL系统表里,字段对应关系保存到T_DRM_DI_TASKDETAILMAPPING系
统表里;
字段映射完成后,构建批流任务的执行脚本,发送到批流平台上去执行完成数据的流
转,如果任务执行失败,将构建的任务信息进行删除。
4 .根据权利要求3所述的一种实现数据血缘的方法,其特征在于,在步骤S2中,获取上
行业务系统的所有数据时,从表T_DRM_DI_TASKDETAILMAPPING中获取任务ID、源库名称、源
表名称、源表字段属性、目标库名称、目标表名称和目标表属性;
从表T_DRM_DI_TASK中获取wid、源表名称、目标表名称、任务执行状态;对两表查询出
的数据进行联合查询筛选,包括两个表中彼此互为对应的源表ID和目标表ID的匹配、筛选
任务状态;
然后按照源库名称、任务属性、目标库名称和任务ID进行分组,同时计算一些count聚
合结果;
定义数据湖的库名称为0,所以在查询上行业务系统数据流转时,筛选出目标库名称为
0的即可。
5 .根据权利要求4所述的一种实现数据血缘的方法,其特征在于,在步骤S3中,根据T_
DRM_DI_TASK任务表和T_DRM_DI_TASKDETAILMAPPING字段映射表根据表名进行联合查询,
得到的结果根据源库名称为0和目的库名称为1的过滤条件筛选出数据湖到标准层的集成
任务,通过列表显示,然后查看每个任务的详情信息。
6 .根据权利要求5所述的一种实现数据血缘的方法,其特征在于,在步骤S4中,获取下
行业务系统的所有数据时,从表T_DRM_DI_TASKDETAILMAPPING中获取任务ID、源库名称、源
表名称、源表字段属性、目标库名称、目标表名称和目标表属性;
从表T_DRM_DI_TASK中获取wid、源表名称、目标表名称、任务执行状态;
对两表查询出的数据进行联合查询筛选,包括两个表中彼此互为对应的源表ID和目标
表ID的匹配、筛选任务状态。
7 .根据权利要求6所述的一种实现数据血缘的方法,其特征在于,按照源库名称、任务
属性、目标库名称和任务ID进行分组,同时计算一些count聚合结果,定义标准层的库名称
权 利 要 求 书
1/2 页
2
评论