
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2017,28(12):3223−3240 [doi: 10.13328/j.cnki.jos.005244] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
泛化双向相似连接
∗
王昶平
,
王朝坤
,
汪
浩
,
王
萌
,
陈
俊
(清华大学 软件学院,北京 100084)
通讯作者: 王朝坤, E-mail: chaokun@tsinghua.edu.cn
摘 要: 相似连接是数据管理领域的一个热门话题,已在社会生产生活中得到广泛应用.然而,现有的相似连接方
法并不能满足真实世界不断增长的客观需求.通过引入定义在多种数据类型上的满足操作符和每条数据的独立阈
值,定义了一种相似连接——泛化双向相似连接.这种连接扩展了相似连接的应用范围.同时,还提出了两种高效的
解决泛化双向相似连接问题的方法:子连接集算法和映射-过滤-验证算法.通过真实与合成数据集上的大量实验,得
出了所提方法的正确性和有效性.
关键词: 双向相似连接;泛化数据;独立阈值;数据映射;过滤验证
中图法分类号: TP311
中文引用格式: 王昶平,王朝坤,汪浩,王萌,陈俊.泛化双向相似连接.软件学报,2017,28(12):3223−3240. http://www.jos.org.cn/
1000-9825/5244.htm
英文引用格式: Wang CP, Wang CK, Wang H, Wang M, Chen J. On generalized bisimilarity join. Ruan Jian Xue Bao/Journal of
Software, 2017,28(12):3223−3240 (in Chinese). http://www.jos.org.cn/1000-9825/5244.htm
On Generalized Bisimilarity Join
WANG Chang-Ping, WANG Chao-Kun, WANG Hao, WANG Meng, CHEN Jun
(School of Software, Tsinghua University, Beijing 100084, China)
Abstract: Similarity join is one of the hottest topics in the field of data management, and it has been widely applied in many fields.
However, existing similarity join methods cannot meet the increasing demands in the real world. This paper define generalized
bisimilarity join as a new similarity join to expend the applications of the similarity join research by introducing the satisfaction operator
on various data types with individual thresholds. Two efficient methods, SJS (sub-join set) and MFV (mapping-filtering- verification), are
proposed to solve this problem. A large amount of experiments conducted on both real-world and synthetic datasets demonstrate the
correctness and the effectiveness of the proposed methods.
Key words: bisimilarity join; generalized data; individual threshold; data mapping; filter and verification
相似连接旨在从两个或一个给定的数据集中找出满足预定连接条件的所有数据对.作为数据库应用中的
一个重要操作,相似连接受到学术界和工业界的普遍关注,并在重复检测
[1]
、同源检索
[2]
和下一代基因测序
[3]
等
众多应用场景中发挥着越来越重要的作用.
数据库研究者已针对不同类型的数据进行了大量的相似连接研究工作,如关系数据
[4]
、实体
[5]
、集合
[6]
以
及字符串
[7]
.近年来,研究者们更是将相似连接问题拓展到图数据等更为复杂的数据类型上
[8]
.然而,现有的相似
连接研究成果仍不能很好地满足现实世界中不断增长的客观需求.
场景 1(交友):假设有两位女士{Alice,Carol}和两位男士{Bob,Dave}希望结交异性.见表 1,他们分别给出了
∗ 基金项目: 国家自然科学基金(61373023)
Foundation item: National Natural Science Foundation of China (61373023)
收稿时间: 2016-08-01; 修改时间: 2016-10-26; 采用时间: 2016-11-19; jos 在线出版时间: 2017-03-24
CNKI 网络优先出版: 2017-03-24 17:11:02, http://kns.cnki.net/kcms/detail/11.2560.TP.20170324.1711.014.html
评论