1 .一种数据血缘确定方法,其特征在于,包括:
接收第一数据表和第二数据表各自的表名和表结构信息,所述表结构信息包括数据表
中、英文字段名,字段类型和字段长度;
计算所述第一数据表和所述第二数据表的表名相似度;
根据所述表名相似度和所述字段相似度矩阵,计算所述第一数据表和所述第二数据表
的血缘关系得分;
根据所述血缘关系得分和预设阈值,确定所述第一数据表和所述第二数据表是否具有
血缘关系。
2.如权利要求1所述的方法,其特征在于,计算所述第一数据表的任一字段与所述第二
数据表的任一字段的相似度,获得字段相似度矩阵,包括:
获取所述第一数据表的M个字段的中、英文字段名和所述第二数据表的N个字段的中、
英文字段名;
计算所述第一数据表的每一个字段与所述第二数据表每一个字段的字段名的编辑距
离,获得M乘以N个编辑距离,所述字段名是中文字段名或英文字段名;
根据所述编辑距离、字段类型相似度、字段长度相似度中的至少一个,计算所述字段的
相似度;
获得所述第一数据表与所述第二数据表的字段相似度矩阵,所述相似度矩阵的第i行
第j列元素是第一数据表第i个字段与第二数据表第j个字段的相似度。
3 .如权利要求1或2所述的方法,其特征在于,根据所述表名相似度和所述字段相似度
矩阵,计算所述第一数据表和所述第二数据表的血缘关系得分,包括:
从所述表名相似度和所述字段相似度矩阵中,取最大的L个值,所述L小于或等于M与N
中较小的值;
根据所述L个值,计算所述第一数据表和所述第二数据表的血缘关系得分。
4 .如权利要求1或2所述的方法,其特征在于,根据所述表名相似度和所述字段相似度
矩阵,计算所述第一数据表和所述第二数据表的血缘关系得分,包括:
从所述相似度矩阵中取最大的L个值求和,所述L小于或等于M与N中较小的值;
获得所述表名相似度和所述和的权值;
计算所述表名相似度和所述和的加权和,获得所述第一数据表和所述第二数据表的血
缘关系得分。
5 .如权利要求4所述的方法,其特征在于,获得所述表名相似度和所述和的权值,包括:
获取数据库审计日志,从审计日志中读取SQL命令;
解析所述SQL命令,获取SQL命令中包含的数据血缘关系集合;
根据所述血缘关系集合,利用贪心算法计算所述表名相似度和所述和的权值。
6 .一种数据血缘确定装置,其特征在于,包括:
接收模块,用于接收第一数据表和第二数据表各自的表名和表结构信息,所述表结构
信息包括数据表中、英文字段名,字段类型和字段长度;
第一计算模块,用于计算所述第一数据表和所述第二数据表的表名相似度;
第二计算模块,用于根据所述表结构信息,计算所述第一数据表的任一字段与所述第
二数据表的任一字段的相似度,获得字段相似度矩阵;
权 利 要 求 书
1/2 页
2
文档被以下合辑收录
评论