一种数据血缘确定方法和装置.pdf

Hubble

251

16页

2次

2023-01-29

免费下载

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号

(43)申请公布日

(21)申请号 201910649260 .4

(22)申请日 2019 .07 .18

(71)申请人天云融创数据科技（北京）有限公司

地址 100025 北京市朝阳区东四环中路78

号楼（百子湾12号大成国际中心）9层

9A08-9A09室

(72)发明人雷涛　吕慧　耿宗可　谭可华　

赵琳　李国庆　

(51)Int .Cl .

G06F

16/2458

(2019.01)

G06F

16/22

(2019.01)

G06F

16/28

(2019.01)

(54)发明名称

一种数据血缘确定方法和装置

(57)摘要

本发明涉及数据治理技术领域，提供了数据

血缘确定方法和装置，包括：接收第一数据表和

第二数据表各自的表名和表结构信息，所述表结

构信息包括数据表中、英文字段名，字段类型和

字段长度；计算所述第一数据表和所述第二数据

表的表名相似度；根据所述表名相似度和所述字

段相似度矩阵，计算所述第一数据表和所述第二

数据表的血缘关系得分；根据所述血缘关系得分

和预设阈值，确定所述第一数据表和所述第二数

据表是否具有血缘关系。本发明利用表名和/或

字段名相似关系确定数据表的数据血缘，达到不

依赖审计日志及无需分析数据生产代码获得数

据血缘的目的 ,可实现利用最少的数据表信息，

确定数据血缘。

权利要求书2页说明书10页附图3页

CN 112241421 A

2021.01.19

CN 112241421 A

1 .一种数据血缘确定方法，其特征在于，包括：

接收第一数据表和第二数据表各自的表名和表结构信息，所述表结构信息包括数据表

中、英文字段名，字段类型和字段长度；

计算所述第一数据表和所述第二数据表的表名相似度；

根据所述表名相似度和所述字段相似度矩阵，计算所述第一数据表和所述第二数据表

的血缘关系得分；

根据所述血缘关系得分和预设阈值，确定所述第一数据表和所述第二数据表是否具有

血缘关系。

2.如权利要求1所述的方法，其特征在于，计算所述第一数据表的任一字段与所述第二

数据表的任一字段的相似度，获得字段相似度矩阵，包括：

获取所述第一数据表的M个字段的中、英文字段名和所述第二数据表的N个字段的中、

英文字段名；

计算所述第一数据表的每一个字段与所述第二数据表每一个字段的字段名的编辑距

离，获得M乘以N个编辑距离，所述字段名是中文字段名或英文字段名；

根据所述编辑距离、字段类型相似度、字段长度相似度中的至少一个，计算所述字段的

相似度；

获得所述第一数据表与所述第二数据表的字段相似度矩阵，所述相似度矩阵的第i行

第j列元素是第一数据表第i个字段与第二数据表第j个字段的相似度。

3 .如权利要求1或2所述的方法，其特征在于，根据所述表名相似度和所述字段相似度

矩阵，计算所述第一数据表和所述第二数据表的血缘关系得分，包括：

从所述表名相似度和所述字段相似度矩阵中，取最大的L个值，所述L小于或等于M与N

中较小的值；

根据所述L个值，计算所述第一数据表和所述第二数据表的血缘关系得分。

4 .如权利要求1或2所述的方法，其特征在于，根据所述表名相似度和所述字段相似度

矩阵，计算所述第一数据表和所述第二数据表的血缘关系得分，包括：

从所述相似度矩阵中取最大的L个值求和，所述L小于或等于M与N中较小的值；

获得所述表名相似度和所述和的权值；

计算所述表名相似度和所述和的加权和，获得所述第一数据表和所述第二数据表的血

缘关系得分。

5 .如权利要求4所述的方法，其特征在于，获得所述表名相似度和所述和的权值，包括：

获取数据库审计日志，从审计日志中读取SQL命令；

解析所述SQL命令，获取SQL命令中包含的数据血缘关系集合；

根据所述血缘关系集合，利用贪心算法计算所述表名相似度和所述和的权值。

6 .一种数据血缘确定装置，其特征在于，包括：

接收模块，用于接收第一数据表和第二数据表各自的表名和表结构信息，所述表结构

信息包括数据表中、英文字段名，字段类型和字段长度；

第一计算模块，用于计算所述第一数据表和所述第二数据表的表名相似度；

第二计算模块，用于根据所述表结构信息，计算所述第一数据表的任一字段与所述第

二数据表的任一字段的相似度，获得字段相似度矩阵；

权　利　要　求　书

1/2 页

CN 112241421 A

of 16

免费下载

文档被以下合辑收录

Hubble数据库（共35篇）

自主研发国产分布式 HTAP数据库专注数据库产品服务，您身边的数据管家

关注

文档被以下合辑收录

评论