DSE精选文章
When Research Topic Trend Prediction Meets Fact‑Based Annotations
文章介绍
许多研究领域的出版物数量空前增长,为跟踪和分析研究主题的演变和发展带来了极大的便利。尽管现有研究做出了重大贡献,但它们通常从论文标题中提取主题,而不是从权威会议(例如AAAI、NeurIPS和SIGMOD)中获取主题。为了弥补现有工作的不足,本文开发了一个新的框架,即RTTP(Research Topic Trend Prediction,研究主题趋势预测)。具体来说,该框架包含以下两个组成部分:(1)设计了一个名为TAS的主题对齐策略,以获取各年度研究主题的详细内容,(2)设计了一个名为EPN的增强预测网络,以捕捉已知年份的研究趋势进行预测。此外,本文构建了计算机科学中特定研究领域的两个现实世界数据集,即:数据库和数据挖掘(DBDM)、计算机架构和并行编程(CAPP)。实验结果表明,该问题得到了很好的解决,提出的解决方案优于最先进的方法。该论文在已有工作基础上的主要贡献如下:
(1)率先研究了基于事实标注的研究主题趋势预测问题,为研究人员跟上研究主题的发展提供了新的视角。
(2)正式将该问题定义为序列预测问题,并提出了一个统一的框架RTTP。该框架由一个主题对齐策略TAS和一个基于深度学习的预测网络EPN组成,前者旨在获取每年研究主题的详细内容,后者旨在捕获已知序列的潜在趋势信息。
(3)在两个真实世界的数据集上进行了实验,以探究提出的框架RTTP的有效性,并提供了一些深入的分析。实验结果表明,与基线相比,RTTP具有更高的性能。
实验效果
各方法在RMSE、MAE和NDCG@K方面的预测性能如表1和表2所示。表1展示了各方法在DBDM数据集上的性能比较,表2展示了各方法在CAPP数据集上的性能比较。DBDM和CAPP的详细统计数据见表3,在测试集上预测时间的比较见表4。总的来说,RTTP在两个数据集中都比所有比较方法获得了更高的性能。基于这些结果,本文总结了以下一些重要的发现。
Transformer可以有效捕获研究趋势演化的相互关联性。基于transformer的框架RTTP和其他三个时间序列模型显著超过了经典的时间序列方法ARIMA,因为ARIMA单独对每个研究主题的时间序列建模,而不是对整个先验研究趋势序列建模。此外,RTTP的表现也优于基于RNN的模型,包括RNN、GRU和NNCP。可以观察到,在DBDM的RMSE指标上,提出的框架比RNN、GRU、NNCP的性能分别提高了3.87%、3.07%、3.54%,在CAPP上分别提高了1.22%、0.9%、2.98%。在不同指标上,使用长短期记忆的研究趋势预测模型DNTP的性能在两个数据集上不够稳定。结果表明,transformer具有更好的能力捕捉研究趋势演变的潜在属性,因为transformer利用多头自注意力从全局序列中提取感兴趣的信息,而不是按顺序接收序列信息。我们还观察到,基于RNN的模型表现出较高的能力,其中RNN和GRU都比MEY和LR取得了更好的性能,表明基于RNN的模型是序列建模和预测任务的强大基线。



表3.两个数据集的数据统计

RTTP在预测时间上具有竞争力。从表4可以观察到,ARIMA比其他方法花费更多的预测时间,因为ARIMA需要对每个研究主题进行预测,而不是一次性生成所有研究主题的研究主题流行度评分。此外,在所有比较方法中,RNN在预测时间上的表现最好。RTTP在DBDM上的预测时间非常接近最优,而在CAPP上则较差。原因是DBDM的规模比CAPP大,基于transformer方法的并行计算优势随着数据集规模的增加而体现出来。自注意力机制可以并行计算序列中的所有位置,而递归神经网络则逐个计算序列中的每个位置。RTTP在较小的数据集上实现了负担得起的预测时间和最佳的预测性能。我们认为RTTP在大规模数据集上的预测时间更具竞争力。
结语
本文提出了一个名为RTTP的新框架,利用基于事实的标注来预测研究主题的趋势。具体而言,首先设计了一种兼顾全局和局部信息的新颖主题对齐策略,以克服不同年份和发表场所的语义差异,并进一步获取各年度研究主题的详细内容。接着,利用一个由嵌入模块、编码器、解码器和预测模块组成的增强型预测网络EPN,捕捉已知年份的研究趋势进行预测。在两个真实数据集上的实验结果证明了所提框架的有效性。此外,本文还提供了从科学论文中获取研究主题的新视角,未来的工作可以通过涉及更丰富的信息来进一步提高提出框架的性能。考虑被引论文的差异化影响是一个值得扩展的有趣想法。在研究主题趋势预测中也应该考虑作者的影响力,因为影响力高的作者或团队更有可能引领研究领域中某个分支主题的发展。此外,受万物互联和跨学科发展的启发,了解不同研究领域之间的相互作用(如人工智能和数据挖掘)对研究主题趋势的影响可能是一个潜在的研究方向。
作者简介
期刊简介











