DSE第7卷第1期精选论文

CCF数据库专委 2022-04-13

516

Data Science and Engineering最新出版的一期（Volume 7, Issue 1）共收录6篇论文，其中精选了4篇DASFAA 2021会议论文作为特邀扩展论文。

会议简介

第26届面向高级应用的数据库系统国际会议（DASFAA 2021）于2021年4月11日在中国台北举行。由于全球疫情影响，参会人员采取线上方式参与。DASFAA是中国计算机学会推荐的B类国际会议，自1996年创办以来，一直是数据库领域的重要国际会议，每年汇集了数据库、数据挖掘、云计算等领域的最新研究成果，是来自学术界、商业界和工业界的数据库研究人员、开发人员和用户之间的技术演示和讨论的重要论坛。第一次DASFAA活动在德国柏林举行（1996年）。之后继续前往德国海德堡（1997年）、美国纽约（1998年）、中国香港（2001年）、英国伦敦（2000年）、意大利米兰（2001年）、法国巴黎（2002年）、日本京都（2003年）、韩国济州岛（2004年）、中国北京（2005年）、新加坡（2006年）、泰国曼谷（2007年）、印度新德里（2008年）、澳大利亚布里斯班（2009年）、日本筑波（2010年）、中国香港（2011年）、韩国釜山（2012年）、中国武汉（2013年）、印度尼西亚巴厘岛（2014年）、越南河内（2015年）、美国德克萨斯州达拉斯（2016年）、中国苏州（2017年）、澳大利亚黄金海岸（2018年）、泰国清迈（2019年）和韩国济州岛（2020年）。去年，DASFAA在中国台北以在线会议的形式举行，得到了台湾大学和中兴大学的支持。最终，98篇提交的论文被选为完整论文，另外还有34篇为短论文。主要主题包括大数据管理、数据库机器学习、图数据管理、图和社交网络分析、文本和数据挖掘、社交网络中的数据管理、推荐系统、搜索和推荐技术、数据语义和数据集成、众包、空间数据管理、网络嵌入、序列和时间数据处理、时间和空间数据库、大规模知识管理、RDF和知识图谱、社交网络和安全、安全、隐私和信任、医疗数据挖掘、生物和健康信息学、查询处理与优化、文本数据库、搜索与信息检索、信息集成、信息推荐、多媒体数据库、多媒体数据处理、分布式计算、云数据管理等领域。

特刊简介

本期特刊的4篇扩展论文是由特邀编辑Wang-Chien Lee副教授（宾夕法尼亚州立大学）、Vincent S. Tseng教授（台湾成功大学）和 Vana Kalogeraki 教授（雅典经济与商业大学）三位共同筛选并录用。筛选的依据是与DSE期刊的相关性和会议的评审意见，从所有录用论文中反复讨论决定的。所有论文的作者需按照DSE要求再次修改论文，并按照惯例添加至少30％新的实质性内容，修改后的论文也按照DSE标准流程经过严格的审稿、修改等过程后最终呈现给读者。

本期特刊的4篇扩展论文涵盖了时序数据、知识图谱等相关的多个主题，简介如下：

(1) Top k Optimal Sequenced Route Query with POI Preferences

原文链接：

https://link.springer.com/article/10.1007/s41019-022-00177-5

摘要：

最优排序路线（OSR）查询是智慧城市路线规划中的一个热门问题，它从起始位置以特定顺序搜索通过多个POI的最短距离路线。实际上，对POI进行评级有助于用户做出决策。现有的OSR查询忽略了同一类别的POI可能具有不同分数的事实，这可能会影响用户的路线选择。本文研究了一种新的OSR查询变体，即评级约束最优排序路径查询（RCOSR），其中最优排序路径中每个POI的评级分数应超过查询阈值。为了有效地处理RCOSR查询，首先通过扩展现有TD-OSR算法提出了一种基线方法，称为MTDOSR。针对MTDOSR的不足，尝试设计一种新的RCOSR算法，即最优子路由扩展（OSE）算法。为了增强OSE算法，提出参考节点倒排索引（RNII）来加速OSE中POI对的距离计算，并快速检索每个类别的POI。为了充分利用OSE和RNII，进一步提出了一种新的高效RCOSR算法，称为循环最优子路由扩展 (ROSE)，它循环利用OSE计算当前最优路径作为引导路径，并将POI对的距离更新为引导扩张。然后，进一步扩展技术来处理RCOSR查询的变体，即RCkOSR查询。实验结果表明，所提出的算法明显优于现有方法。

(1) Top k Optimal Sequenced Route Query with POI Preferences

原文链接：

https://link.springer.com/article/10.1007/s41019-022-00177-5

摘要：

(2) Toward Entity Alignment in the Open World: An Unsupervised Approach with Confidence Modeling

原文链接：

https://link.springer.com/article/10.1007/s41019-022-00178-4

摘要：

实体对齐（EA）旨在发现不同知识图谱（KG）中的等效实体。这是整合知识图谱以提高知识覆盖率和质量的关键步骤。近年来，EA框架迅速增加。然而，最先进的解决方案往往依赖于标记数据进行模型训练。此外，它们在封闭域设置下工作，无法处理无法匹配的实体。为了解决这些缺陷，本文提供一个在开放世界中执行实体对齐的无监督框架UEA。首先从KG的边信息中挖掘有用的特征；然后，设计一个不匹配的实体预测模块来过滤掉不匹配的实体并产生初步的对齐结果，这些初步结果被视为伪标记数据并转发到渐进式学习框架以生成结构表示，将其与辅助信息集成以提供更全面的对齐视图；最后，渐进式学习框架逐渐提高结构嵌入的质量并增强了对齐性能。此外，注意到伪标记数据具有各种质量，引入了置信度的概念来衡量实体对为真的概率，并开发一个基于置信度的无监督EA框架CUEA。本文的解决方案不需要标记数据，并且可以有效地过滤掉不匹配的实体。综合实验评估验证了本文提议的优越性。

(3) Disentangled Graph Recurrent Network for Document Ranking

原文链接：

https://link.springer.com/article/10.1007/s41019-022-00179-3

摘要：

由于BERT优秀的自然语言理解能力，基于BERT的排序模型不断涌现。查询和文档中的所有词关系和表示都在自注意力的矩阵中被建模为潜在知识。然而，一些潜在的知识对查询和文档之间的相关性预测没有影响或有着负面影响。本文在因果关系图中对可观察和不可观察的混杂因素进行建模，并执行do-query来预测图的标签。对于观察到的因素，通过transformer层对后门路径进行自适应mask，并通过精化层对单词图上的单词表示进行精化。对于未被观察到的因素，通过分解层将词语表示分解为查询相关的部分和查询不相关的部分，从而从前门路径解析do-operation查询。Pairwise排序的损失主要用于文档排序任务，在transformer层和精化层都引入了三角形距离损失以便于区分表示，并在分解层上设置互信息约束。在公共基准数据集TREC Robust04和WebTrack2009-12上的实验结果表明，DGRe的性能比SOTA基线高出2%以上，在短查询方面表现较好。

(4) Spatio-Temporal Representation Learning with Social Tie for Personalized POI Recommendation

原文链接：

https://link.springer.com/article/10.1007/s41019-022-00180-w

摘要：

对于基于位置的社交网络（LBSN），推荐用户下一步将访问的一些兴趣点（POI）对用户和POI拥有者来说都变得越来越重要。然而，兴趣点推荐是一项具有挑战性的任务，因为其复杂的序列模式和丰富的上下文信息包含在极其稀疏的用户数据中。最近的研究表明，嵌入技术有效地结合了兴趣点上下文信息以缓解数据稀疏性问题，循环神经网络（RNN）也已成功应用于序列预测。然而，仅使用单独的嵌入学习或单独的网络建模都会导致现有的兴趣点推荐方法在捕捉用户个性化偏好方面受到限制。为此，本文提出一种新型联合时空神经网络框架PPR，该框架通过联合嵌入和序列建模，利用用户的登记记录和社会关系，来为查询用户推荐个性化的兴趣点。具体来说，PPR首先在异构图中利用用户-POI关系、序列模式、地理影响和社会关系进行联合建模来学习用户和POI表示，然后使用设计好的基于LSTM模型的时空神经网络对用户个性化序列模式进行建模，以实现个性化POI的推荐。此外，通过联合学习节点表示和建模用户个性化的顺序偏好，将PPR扩展成一个端到端的推荐模型。在三个真实数据集上进行的大量实验表明，我们的模型在准确性、精确度、召回率和NDCG方面都明显优于现在最先进的连续POI推荐模型。源代码可从以下网址获得：https://www.anonymous.4open.science/r/DSE-1BEC。

本期特刊另外2篇精选论文简介如下：

(5) A Unification of Heterogeneous Data Sources into a Graph Model in E-commerce

原文链接：

https://link.springer.com/article/10.1007/s41019-021-00174-0

摘要：

将异构数据模型结合到大型电子商务应用程序中会产生各种复杂性和开销，例如用以查询处理的数据冗余、不同数据模型的维护以及不同模型之间的通信。由于图已经成为具有异构、非结构化和以关系为中心的数据的大规模应用程序的数据建模技术，现在存在大量将不同类型数据映射到图的模型。然而，将来自异构源模型的数据统一到图模型中并没有受到太多关注。为了解决这个问题，本研究提出了一个新框架，首先将来自各种源模型的数据单独转换为图模型，然后将它们统一为一个图。为了证明所提出的框架在电子商务应用程序中的适用性，分析并比较了统一图的查询性能、可伸缩性和数据库大小与预定义查询集的异构源数据模型。此外，使用一些定性度量来进一步评估结果，例如所建议的统一图的灵活性、完整性、一致性和成熟度。根据实验结果，统一图在查询性能和可扩展性方面优于异构源模型。

(6) Critical Correlation of Predictors for an Efficient Risk Prediction Framework of ICU Patient Using Correlation and Transformation of MIMIC-III Dataset

原文链接：

https://link.springer.com/article/10.1007/s41019-022-00176-6

摘要：

在过去的十年中，各种预测框架已经发展起来，用于促进医疗保健部门重大疾病的有效诊断。有的已经商业化，有的还处于研发阶段。早期的预测系统要求必须在复杂的临床数据和各种具有挑战性的环境中提供更准确的结果，用于重症监护的开源数据库系统MIMIC简化并提供了预测分析所需的所有属性。该数据库包含患者在医疗机构求医期间的临床和非临床信息，这些信息是在其求医期间收集的。虽然已有大量工作使用MIMIC III数据库进行研究尝试，目前尚未有一种成熟的计算技术可以用于关键问题的早期分析且具有成本效益。因此，本研究提供了一种新颖且具有成本效益的机器学习框架，该框架使用一种新颖的特征工程方法。核心思想是预测与患者临床结果相关的风险。本研究侧重于诊断和临床治疗，并从MIMIC III数据库和ICD-9代码中发现了独立预测因子的不同变体，所提出的方法是用Python编写的，并且已经评估了三种常见机器学习方案的结果，即人工神经网络、K-最近邻和逻辑回归。在准确性上，人工神经网络优于替代机器学习技术。

客座编辑简介

Wang-Chien Lee是美国宾州州立大学计算机科学与工程系副教授、博士生导师。他在台湾交通大學資訊科学系获理学学士学位，在美国Indiana大学获计算机硕士学位，在美国Ohio州立大学计算机系获得博士学位，曾在Verizon Labs担任研究员（1996-2001）。曾担任 ICDE、ICNP、INFOCOM、ICDCS等多个国际主流会议程序委员，第一届MDM国际会议（MDM 1999）程序委员会主席，第二届INFOSCALE国际会议（INFOSCALE 2007）程序委员会主席, 并为IEEE Transaction on Computer、IEEE Personal Communications Magazine、ACM MONET、ACM WINET等国际学术期刊编辑了数个有关移动数据库方面的专刊。在很多国际学术期刊如《IEEE transactions on Knowledge and Data Engineering》,《IEEE Transactions on Parallel and Distributed Systems》《IEEE Transactions on Mobile Computing》,《Very Large Data Bases Journal》，以及主流会议INFOCOM、ICDCS、ICNP、ICDE等发表许多有影响的论文，迄今已在国际会议及期刊杂志累计发表超过110篇以上的论文。研究方向包括对等网络（P2P），普适计算, 无线传感网络, 以及数据管理。

Vincent S. Tseng是台湾成功大学计算机科学与信息工程学系的特聘教授、台湾人工智能学会理事长、IEEE CIS台南分会副会长。在加入台湾成功大学前，他是美国加州大学伯克利分校计算机科学系的一名博士后研究员（1998-1999年）。2008年8月至2011年7月担任台湾成功大学医学信息学研究所的主任。研究领域主要包括数据挖掘、智能计算、移动和网络技术、生物医学信息学和多媒体数据库。在国际会议和期刊上发表了250篇以上的文章，拥有15项专利。他是许多著名期刊的编委会成员，包括IEEE TKDE、ACM TKDD等等，曾担任多个与数据挖掘和数据库系统相关的重要国际会议的主席/项目委员会成员，包括SIGKDD、ICDM、ICDE、CIKM、PAKDD等等，也是PAKDD 2013的联合主席。

Vana Kalogeraki是雅典经济与商业大学计算机科学系教授和计算机系统与通信实验室主任。她曾是加州大学河滨分校计算机科学系的副教授和加利福尼亚州帕洛阿尔托惠普实验室的研究科学家，在加州大学圣巴巴拉分校获得博士学位，在希腊克里特大学获得硕士学位和学士学位。Kalogeraki教授在分布式和实时系统、大数据系统、云计算、以人为中心的系统、参与式传感、众包、资源管理和容错领域工作超过25年，发表了200多篇论文，在顶级期刊（IEEE TPDS、ACM TOS等发表20多篇论文，在著名会议上发表了100多篇论文。曾受邀在 PerFoT 2018、MoVid 2015等会议上就物联网、参与式传感系统和传感器中间件进行主题演讲。在第11届ACM DEBS 2017、第24届IEEE IPDPS 2009和IEEE SAINT 2008最佳技术论文奖中获得了玛丽居里奖学金、三项最佳论文奖在ACM PETRA 2018、IEEE/IPSJ SAINT 2011最佳学生论文奖、IBM第15届IEEE MDM 2014最佳学生论文亚军奖、HP研究奖和多个UC研究奖。

期刊简介

Data Science and Engineering（DSE）是由中国计算机学会（CCF）主办、数据库专业委员会承办、施普林格自然（Springer Nature）出版的Open Access期刊。为了迎合相关领域的快速发展需求，DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点，以大数据作为研究重点，征稿范畴主要包括4方面：（1）数据本身，（2）数据信息提取方法，（3）数据计算理论，和（4）用来分析与管理数据的技术和系统。

目前期刊已被EI、ESCI与SCOPUS收录，CiteScore2020为4.9，在Computer Science Applications领域排名#181/693（73rd Percentile）。稿件处理费由赞助商中新赛克（Sinovatio）承担，欢迎大家免费下载阅读期刊全文，并积极投稿。

扫描二维码获取

DSE第7卷第1期精选论文

评论