暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
一种数据血缘确定方法和装置.pdf
251
16页
2次
2023-01-29
免费下载
(19)中华人共和国国家知识产
(12)发明专
(10)请公布号
(43)请公布日
(21)请号 201910649260 .4
(22)请日 2019 .07 .18
(71)请人 天云融创数据科技北京)限公
地址 100025 北京市朝阳区东四环中路78
(百12大成心)9
9A08-9A09室
(72)发明人 雷涛 吕慧 耿宗可 谭可华 
赵琳  
(51)Int .Cl .
G06F
16/2458
(2019.01)
G06F
16/22
(2019.01)
G06F
16/28
(2019.01)
(54)发明
一种数据血缘确定方法和装置
(57)摘要
本发明涉及数据治理技术领提供了数
确定装置接收第一
第二数据表各自的名和表结构信息所述表结
信息据表英文
字段长计算所述第一数据表和所述第二数
名相似度根据所述相似度所述
相似度矩计算所述第一数据表所述第二
数据表的血缘关系得分据所述血缘关系得分
和预设阈值确定所述第一数据表和所述第二数
据表有血本发用表名和/或
字段名相似关系确定数据表的数据血缘达到
赖审无需代码
据血缘的 ,可实用最少的信息
确定数据血缘。
权利要求书2页 说明书10页 附图3页
CN 112241421 A
2021.01.19
CN 112241421 A
1 .血缘确定方其特征在于包括
接收第一数据表第二数据表各自的名和表结信息所述表结信息包括据表
英文字段名,字段类型和字段长度
计算所述第一数据表和所述第二数据表名相似度
据所述名相似度和所述字段相似度矩阵计算所第一数据表和所述第二数据表
的血缘关系得分
据所述血缘关系得和预设阈所述第一数据表和所述第二数据表是否具有
血缘关系。
2.如权利要求1所述的方特征在于算所述第一数据表的任一字段与所第二
数据表的任一字段的似度获得字段相似度矩包括
第一表的M段的名和所表的N字段
英文字段名;
算所第一表的与所表每段的名的
获得M乘N个编辑距离所述字段文字段或英文字段名;
据所述编辑距字段类相似度字段长相似度中的少一个计算所述字段的
相似度
第一与所第二表的度矩阵度矩阵第i
第j列元素是第一数据表第i个字段与第二数据表第j个字段相似度。
3 .要求12所述在于名相和所相似
计算所述第一数据表和所述第二数据表血缘关系得分包括
相似和所相似矩阵大的LL小于M与N
中较小的值
根据所述L个值计算所述第一数据表所述二数据表的血缘关系得分。
4 .要求12述的在于据所相似和所
计算所述第一数据表和所述第二数据表血缘关系得分包括
从所述似度矩阵中取最大的L个值求所述L小于或等于M与N中较小的值
获得所述表名相度和所述的权值
计算所述名相似度和所述和的加权得所第一数据表和所述第二数据表的
缘关系得分。
5 .如权利要求4所述方法其特征在于获得所述相似度和所述和权值包括
获取数据库审计日志审计读取SQL命令
解析所述SQL命令获取SQL命令中包含的数据血缘关集合
根据所述血缘关系集合贪心算法计算所述表名相度和所述的权值。
6 .一种数据血缘确定装置其特征在于包括
接收用于接第一第二各自名和表信息
信息包括数据表英文字段名,字段类型和字段长
第一计算模块于计算所述第一数据表和所述第二数据表相似度
第二用于根据所计算一数表的与所
二数据表任一字段的似度获得字段相似度矩
权 利 要 求 书
1/2
2
CN 112241421 A
2
of 16
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜