
会议简介
第26届面向高级应用的数据库系统国际会议(DASFAA 2021)于2021年4月11日在中国台北举行。由于全球疫情影响,参会人员采取线上方式参与。DASFAA是中国计算机学会推荐的B类国际会议,自1996年创办以来,一直是数据库领域的重要国际会议,每年汇集了数据库、数据挖掘、云计算等领域的最新研究成果,是来自学术界、商业界和工业界的数据库研究人员、开发人员和用户之间的技术演示和讨论的重要论坛。第一次DASFAA活动在德国柏林举行(1996年)。之后继续前往德国海德堡(1997年)、美国纽约(1998年)、中国香港(2001年)、英国伦敦(2000年)、意大利米兰(2001年)、法国巴黎(2002年)、日本京都(2003年)、韩国济州岛(2004年)、中国北京(2005年)、新加坡(2006年)、泰国曼谷(2007年)、印度新德里(2008年)、澳大利亚布里斯班(2009年)、日本筑波(2010年)、中国香港(2011年)、韩国釜山(2012年)、中国武汉(2013年)、印度尼西亚巴厘岛(2014年)、越南河内(2015年)、美国德克萨斯州达拉斯(2016年)、中国苏州(2017年)、澳大利亚黄金海岸(2018年)、泰国清迈(2019年)和韩国济州岛(2020年)。去年,DASFAA在中国台北以在线会议的形式举行,得到了台湾大学和中兴大学的支持。最终,98篇提交的论文被选为完整论文,另外还有34篇为短论文。主要主题包括大数据管理、数据库机器学习、图数据管理、图和社交网络分析、文本和数据挖掘、社交网络中的数据管理、推荐系统、搜索和推荐技术、数据语义和数据集成、众包、空间数据管理、网络嵌入、序列和时间数据处理、时间和空间数据库、大规模知识管理、RDF和知识图谱、社交网络和安全、安全、隐私和信任、医疗数据挖掘、生物和健康信息学、查询处理与优化、文本数据库、搜索与信息检索、信息集成、信息推荐、多媒体数据库、多媒体数据处理、分布式计算、云数据管理等领域。
特刊简介
本期特刊的4篇扩展论文是由特邀编辑Wang-Chien Lee副教授(宾夕法尼亚州立大学)、Vincent S. Tseng教授(台湾成功大学)和 Vana Kalogeraki 教授(雅典经济与商业大学)三位共同筛选并录用。筛选的依据是与DSE期刊的相关性和会议的评审意见,从所有录用论文中反复讨论决定的。所有论文的作者需按照DSE要求再次修改论文,并按照惯例添加至少30%新的实质性内容,修改后的论文也按照DSE标准流程经过严格的审稿、修改等过程后最终呈现给读者。
本期特刊的4篇扩展论文涵盖了时序数据、知识图谱等相关的多个主题,简介如下:
(1) Top k Optimal Sequenced Route Query with POI Preferences
原文链接:
https://link.springer.com/article/10.1007/s41019-022-00177-5
摘要:
最优排序路线(OSR)查询是智慧城市路线规划中的一个热门问题,它从起始位置以特定顺序搜索通过多个POI的最短距离路线。实际上,对POI进行评级有助于用户做出决策。现有的OSR查询忽略了同一类别的POI可能具有不同分数的事实,这可能会影响用户的路线选择。本文研究了一种新的OSR查询变体,即评级约束最优排序路径查询(RCOSR),其中最优排序路径中每个POI的评级分数应超过查询阈值。为了有效地处理RCOSR查询,首先通过扩展现有TD-OSR算法提出了一种基线方法,称为MTDOSR。针对MTDOSR的不足,尝试设计一种新的RCOSR算法,即最优子路由扩展(OSE)算法。为了增强OSE算法,提出参考节点倒排索引(RNII)来加速OSE中POI对的距离计算,并快速检索每个类别的POI。为了充分利用OSE和RNII,进一步提出了一种新的高效RCOSR算法,称为循环最优子路由扩展 (ROSE),它循环利用OSE计算当前最优路径作为引导路径,并将POI对的距离更新为引导扩张。然后,进一步扩展技术来处理RCOSR查询的变体,即RCkOSR查询。实验结果表明,所提出的算法明显优于现有方法。
(2) Toward Entity Alignment in the Open World: An Unsupervised Approach with Confidence Modeling
原文链接:
https://link.springer.com/article/10.1007/s41019-022-00178-4
摘要:
实体对齐(EA)旨在发现不同知识图谱(KG)中的等效实体。这是整合知识图谱以提高知识覆盖率和质量的关键步骤。近年来,EA框架迅速增加。然而,最先进的解决方案往往依赖于标记数据进行模型训练。此外,它们在封闭域设置下工作,无法处理无法匹配的实体。为了解决这些缺陷,本文提供一个在开放世界中执行实体对齐的无监督框架UEA。首先从KG的边信息中挖掘有用的特征;然后,设计一个不匹配的实体预测模块来过滤掉不匹配的实体并产生初步的对齐结果,这些初步结果被视为伪标记数据并转发到渐进式学习框架以生成结构表示,将其与辅助信息集成以提供更全面的对齐视图;最后,渐进式学习框架逐渐提高结构嵌入的质量并增强了对齐性能。此外,注意到伪标记数据具有各种质量,引入了置信度的概念来衡量实体对为真的概率,并开发一个基于置信度的无监督EA框架CUEA。本文的解决方案不需要标记数据,并且可以有效地过滤掉不匹配的实体。综合实验评估验证了本文提议的优越性。
(3) Disentangled Graph Recurrent Network for Document Ranking
原文链接:
https://link.springer.com/article/10.1007/s41019-022-00179-3
摘要:
由于BERT优秀的自然语言理解能力,基于BERT的排序模型不断涌现。查询和文档中的所有词关系和表示都在自注意力的矩阵中被建模为潜在知识。然而,一些潜在的知识对查询和文档之间的相关性预测没有影响或有着负面影响。本文在因果关系图中对可观察和不可观察的混杂因素进行建模,并执行do-query来预测图的标签。对于观察到的因素,通过transformer层对后门路径进行自适应mask,并通过精化层对单词图上的单词表示进行精化。对于未被观察到的因素,通过分解层将词语表示分解为查询相关的部分和查询不相关的部分,从而从前门路径解析do-operation查询。Pairwise排序的损失主要用于文档排序任务,在transformer层和精化层都引入了三角形距离损失以便于区分表示,并在分解层上设置互信息约束。在公共基准数据集TREC Robust04和WebTrack2009-12上的实验结果表明,DGRe的性能比SOTA基线高出2%以上,在短查询方面表现较好。
(4) Spatio-Temporal Representation Learning with Social Tie for Personalized POI Recommendation
原文链接:
https://link.springer.com/article/10.1007/s41019-022-00180-w
摘要:
对于基于位置的社交网络(LBSN),推荐用户下一步将访问的一些兴趣点(POI)对用户和POI拥有者来说都变得越来越重要。然而,兴趣点推荐是一项具有挑战性的任务,因为其复杂的序列模式和丰富的上下文信息包含在极其稀疏的用户数据中。最近的研究表明,嵌入技术有效地结合了兴趣点上下文信息以缓解数据稀疏性问题,循环神经网络(RNN)也已成功应用于序列预测。然而,仅使用单独的嵌入学习或单独的网络建模都会导致现有的兴趣点推荐方法在捕捉用户个性化偏好方面受到限制。为此,本文提出一种新型联合时空神经网络框架PPR,该框架通过联合嵌入和序列建模,利用用户的登记记录和社会关系,来为查询用户推荐个性化的兴趣点。具体来说,PPR首先在异构图中利用用户-POI关系、序列模式、地理影响和社会关系进行联合建模来学习用户和POI表示,然后使用设计好的基于LSTM模型的时空神经网络对用户个性化序列模式进行建模,以实现个性化POI的推荐。此外,通过联合学习节点表示和建模用户个性化的顺序偏好,将PPR扩展成一个端到端的推荐模型。在三个真实数据集上进行的大量实验表明,我们的模型在准确性、精确度、召回率和NDCG方面都明显优于现在最先进的连续POI推荐模型。源代码可从以下网址获得:https://www.anonymous.4open.science/r/DSE-1BEC。
本期特刊另外2篇精选论文简介如下:
(5) A Unification of Heterogeneous Data Sources into a Graph Model in E-commerce
原文链接:
https://link.springer.com/article/10.1007/s41019-021-00174-0
摘要:
将异构数据模型结合到大型电子商务应用程序中会产生各种复杂性和开销,例如用以查询处理的数据冗余、不同数据模型的维护以及不同模型之间的通信。由于图已经成为具有异构、非结构化和以关系为中心的数据的大规模应用程序的数据建模技术,现在存在大量将不同类型数据映射到图的模型。然而,将来自异构源模型的数据统一到图模型中并没有受到太多关注。为了解决这个问题,本研究提出了一个新框架,首先将来自各种源模型的数据单独转换为图模型,然后将它们统一为一个图。为了证明所提出的框架在电子商务应用程序中的适用性,分析并比较了统一图的查询性能、可伸缩性和数据库大小与预定义查询集的异构源数据模型。此外,使用一些定性度量来进一步评估结果,例如所建议的统一图的灵活性、完整性、一致性和成熟度。根据实验结果,统一图在查询性能和可扩展性方面优于异构源模型。
(6) Critical Correlation of Predictors for an Efficient Risk Prediction Framework of ICU Patient Using Correlation and Transformation of MIMIC-III Dataset
原文链接:
https://link.springer.com/article/10.1007/s41019-022-00176-6
摘要:
在过去的十年中,各种预测框架已经发展起来,用于促进医疗保健部门重大疾病的有效诊断。有的已经商业化,有的还处于研发阶段。早期的预测系统要求必须在复杂的临床数据和各种具有挑战性的环境中提供更准确的结果,用于重症监护的开源数据库系统MIMIC简化并提供了预测分析所需的所有属性。该数据库包含患者在医疗机构求医期间的临床和非临床信息,这些信息是在其求医期间收集的。虽然已有大量工作使用MIMIC III数据库进行研究尝试,目前尚未有一种成熟的计算技术可以用于关键问题的早期分析且具有成本效益。因此,本研究提供了一种新颖且具有成本效益的机器学习框架,该框架使用一种新颖的特征工程方法。核心思想是预测与患者临床结果相关的风险。本研究侧重于诊断和临床治疗,并从MIMIC III数据库和ICD-9代码中发现了独立预测因子的不同变体,所提出的方法是用Python编写的,并且已经评估了三种常见机器学习方案的结果,即人工神经网络、K-最近邻和逻辑回归。在准确性上,人工神经网络优于替代机器学习技术。
客座编辑简介
期刊简介

扫描二维码获取
更多精彩
CCF数据库专委









