一种实现数据血缘的方法及装置_CN119357184A_上海沄熹科技.pdf

迹部景吾

8页

0次

2025-03-05

免费下载

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号

(43)申请公布日

(21)申请号 202411289518.1

(22)申请日 2024 .09 .14

(71)申请人上海沄熹科技有限公司

地址 200120 上海市浦东新区中国（上海）

自由贸易试验区张东路1158号、丹桂

路1059号2幢305-22室

(72)发明人魏力　贾建辉　刘强　

(74)专利代理机构济南信达专利事务所有限公

司 37100

专利代理师姜丽洁

(51)Int.Cl.

G06F

16/22

(2019 .01)

G06F

16/25

(2019 .01)

G06F

16/2455

(2019 .01)

(54)发明名称

一种实现数据血缘的方法及装置

(57)摘要

本发明涉及大数据领域，具体提供了一种实

现数据血缘的方法及装置，具有如下步骤：S1、建

立批流任务；S2、获取上行业务系统的数据血缘

信息；S3、获取从数据湖到标准层的集成任务详

情；S4、获取下行业务系统的数据血缘信息。与现

有技术相比，本发明能够对数据的产生和消亡的

过程进行了更好的管理。

权利要求书2页说明书4页附图1页

CN 119357184 A

2025.01.24

CN 119357184 A

1 .一种实现数据血缘的方法，其特征在于，具有如下步骤：

S1、建立批流任务；

S2、获取上行业务系统的数据血缘信息；

S3、获取从数据湖到标准层的集成任务详情；

S4、获取下行业务系统的数据血缘信息。

2 .根据权利要求1所述的一种实现数据血缘的方法，其特征在于，在步骤S1中，上行系

统为业务源到数据湖的数据流转，中枢系统为数据湖到标准层的数据流转，下行系统为标

准层到主题层、指标层以及对外提供API服务的数据流转；

数据的流转基于批流任务的执行，需要记录任务信息以及字段的映射；

建立集成任务之前，将业务源库ID、业务源库名称、任务名称、任务状态、任务类型、源

表名称、目标表名称、字段映射、任务详情信息保存到T_DRM_DI_TASK系统表里。

3 .根据权利要求2所述的一种实现数据血缘的方法，其特征在于，构建源表、源字段的

属性以及对应的目标表、目标字段的属性，任务的ID和T_DRM_DI_TASK表里的WID对应，保存

到T_DRM_DI_TASKDETAIL系统表里，字段对应关系保存到T_DRM_DI_TASKDETAILMAPPING系

统表里；

字段映射完成后，构建批流任务的执行脚本，发送到批流平台上去执行完成数据的流

转，如果任务执行失败，将构建的任务信息进行删除。

4 .根据权利要求3所述的一种实现数据血缘的方法，其特征在于，在步骤S2中，获取上

行业务系统的所有数据时，从表T_DRM_DI_TASKDETAILMAPPING中获取任务ID、源库名称、源

表名称、源表字段属性、目标库名称、目标表名称和目标表属性；

从表T_DRM_DI_TASK中获取wid、源表名称、目标表名称、任务执行状态；对两表查询出

的数据进行联合查询筛选，包括两个表中彼此互为对应的源表ID和目标表ID的匹配、筛选

任务状态；

然后按照源库名称、任务属性、目标库名称和任务ID进行分组，同时计算一些count聚

合结果；

定义数据湖的库名称为0，所以在查询上行业务系统数据流转时，筛选出目标库名称为

0的即可。

5 .根据权利要求4所述的一种实现数据血缘的方法，其特征在于，在步骤S3中，根据T_

DRM_DI_TASK任务表和T_DRM_DI_TASKDETAILMAPPING字段映射表根据表名进行联合查询，

得到的结果根据源库名称为0和目的库名称为1的过滤条件筛选出数据湖到标准层的集成

任务，通过列表显示，然后查看每个任务的详情信息。

6 .根据权利要求5所述的一种实现数据血缘的方法，其特征在于，在步骤S4中，获取下

行业务系统的所有数据时，从表T_DRM_DI_TASKDETAILMAPPING中获取任务ID、源库名称、源

表名称、源表字段属性、目标库名称、目标表名称和目标表属性；

从表T_DRM_DI_TASK中获取wid、源表名称、目标表名称、任务执行状态；

对两表查询出的数据进行联合查询筛选，包括两个表中彼此互为对应的源表ID和目标

表ID的匹配、筛选任务状态。

7 .根据权利要求6所述的一种实现数据血缘的方法，其特征在于，按照源库名称、任务

属性、目标库名称和任务ID进行分组，同时计算一些count聚合结果，定义标准层的库名称

权　利　要　求　书

1/2 页

CN 119357184 A

1 .一种实现数据血缘的方法，其特征在于，具有如下步骤：

S1、建立批流任务；

S2、获取上行业务系统的数据血缘信息；

S3、获取从数据湖到标准层的集成任务详情；

S4、获取下行业务系统的数据血缘信息。

2 .根据权利要求1所述的一种实现数据血缘的方法，其特征在于，在步骤S1中，上行系

统为业务源到数据湖的数据流转，中枢系统为数据湖到标准层的数据流转，下行系统为标

准层到主题层、指标层以及对外提供API服务的数据流转；

数据的流转基于批流任务的执行，需要记录任务信息以及字段的映射；

建立集成任务之前，将业务源库ID、业务源库名称、任务名称、任务状态、任务类型、源

表名称、目标表名称、字段映射、任务详情信息保存到T_DRM_DI_TASK系统表里。

3 .根据权利要求2所述的一种实现数据血缘的方法，其特征在于，构建源表、源字段的

属性以及对应的目标表、目标字段的属性，任务的ID和T_DRM_DI_TASK表里的WID对应，保存

到T_DRM_DI_TASKDETAIL系统表里，字段对应关系保存到T_DRM_DI_TASKDETAILMAPPING系

统表里；

字段映射完成后，构建批流任务的执行脚本，发送到批流平台上去执行完成数据的流

转，如果任务执行失败，将构建的任务信息进行删除。

4 .根据权利要求3所述的一种实现数据血缘的方法，其特征在于，在步骤S2中，获取上

行业务系统的所有数据时，从表T_DRM_DI_TASKDETAILMAPPING中获取任务ID、源库名称、源

表名称、源表字段属性、目标库名称、目标表名称和目标表属性；

从表T_DRM_DI_TASK中获取wid、源表名称、目标表名称、任务执行状态；对两表查询出

的数据进行联合查询筛选，包括两个表中彼此互为对应的源表ID和目标表ID的匹配、筛选

任务状态；

然后按照源库名称、任务属性、目标库名称和任务ID进行分组，同时计算一些count聚

合结果；

定义数据湖的库名称为0，所以在查询上行业务系统数据流转时，筛选出目标库名称为

0的即可。

5 .根据权利要求4所述的一种实现数据血缘的方法，其特征在于，在步骤S3中，根据T_

DRM_DI_TASK任务表和T_DRM_DI_TASKDETAILMAPPING字段映射表根据表名进行联合查询，

得到的结果根据源库名称为0和目的库名称为1的过滤条件筛选出数据湖到标准层的集成

任务，通过列表显示，然后查看每个任务的详情信息。

6 .根据权利要求5所述的一种实现数据血缘的方法，其特征在于，在步骤S4中，获取下

行业务系统的所有数据时，从表T_DRM_DI_TASKDETAILMAPPING中获取任务ID、源库名称、源

表名称、源表字段属性、目标库名称、目标表名称和目标表属性；

从表T_DRM_DI_TASK中获取wid、源表名称、目标表名称、任务执行状态；

对两表查询出的数据进行联合查询筛选，包括两个表中彼此互为对应的源表ID和目标

表ID的匹配、筛选任务状态。

7 .根据权利要求6所述的一种实现数据血缘的方法，其特征在于，按照源库名称、任务

属性、目标库名称和任务ID进行分组，同时计算一些count聚合结果，定义标准层的库名称

权　利　要　求　书

1/2 页

CN 119357184 A

of 8

免费下载

关注

评论