论文导读 | 面向稀疏实体的知识图谱补全

图谱学苑 2022-10-08

1897

前言

传统的知识图谱补全方法通常分为两类：基于表示学习的方法（如TransE、ConvE、Rotate等）和基于谓词逻辑规则的方法（如AMIE、Neural-LP等）。前者存在的问题是需要依赖丰富的训练数据，因此当数据稀疏时难以学习到高质量的表示；后者则存在高质量规则数量较少，覆盖度不高的问题。然而，稀疏问题是知识图谱领域中的普遍问题，在知识图谱中大量存在，因此如何针对稀疏实体完成知识图谱补全是知识图谱推理领域值得研究的一个问题。本文将介绍三个近期面向稀疏知识图谱补全问题的方法。

文章一：基于概率案例推理的开放世界知识图谱补全

本文采用基于案例的方法，流程上分为三步：retrieve-revise-reuse。首先检索现有数据中与问题实体相似的实体，然后分析现有数据中存在的推理路径，最后将推理路径应用到问题实体上，从而推导得到正确答案。本文的动机是路径规则有其适用范围，需根据具体的问题对候选推理路径计算权重。

例如对于问题（John Von Neumann, place_of_death, ?），首先检索到上图中的相似实体，从中得到以下两条路径规则，右图中的实体均适用规则1，然而对于左图中的实体，科学家们并非在美国出生，规则1并不适用，只有选择规则2时才能推理得到正确实体。

因此，需根据问题对候选路径计算权重。

本文根据路径在上下文子集中的频率和精确率计算权重，且计算过程仅通过简单的统计信息，无需训练，推理路径可以很好地适用于稀疏实体。对于问题(e_1q, r_q, ?)，本文方法介绍如下：

检索上下文实体。本文按照出边信息将实体进行one-hot表示，然后进行KNN方法进行聚类，进一步检索与边r_q相连，且与e_1q最相似的k个实体，构成上下文实体集合E_c,q。进一步抽取得到候选路径集合P_n(E_c,q,r_q)。则检索到正确答案e₂的概率表示为：

第二行中前者表示给定问题，该路径成立的概率，后者表示通过该路径到达答案e₂的概率。

推理路径的参数估计。

上式表示问题实体所在的聚类cluster c中，路径p出现的频率；

上式表示该Cluster c中，通过该路径p得到正确答案的精确率。

推理。最后则利用相似实体的推理路径进行推理，推理所得答案则由所依赖路径的权重表示

本文在以下数据集上进行了实验：

本文方法在链接预测任务上的表现为：

文章二：基于子图推理的归纳关系预测

本文主要面向知识图谱的谓词预测任务，认为特定三元组附近的局部子集可能包含关系推理所需的逻辑证据。基本思想为使用GNN在子图中学习与实体无关的关系型语义，用于关系预测，该方法可扩展到新实体。本文的具体方法见下图示例。

Step 1. 子图抽取（子图1）。分别从两个目标节点u,v 出发，收集k-hop节点集，取交集并剪枝（孤立节点/距目标节点大于k跳的节点）。
Step 2. 节点标注（子图2）。使用双半径顶点标记法（double radius vertex labeling scheme）对节点标注，以获得节点表示，获取子图特征矩阵
Step 3. 对三元组进行打分。首先通过L层迭代获取节点的表示。

上式中

即为节点t在第k次迭代所得的隐层表示，子图的表示则由图中所有节点表示的ave-pooling得到。最后，三元组的打分可通过以下方式获得：

本模型的损失函数为：

本文在谓词预测任务上进行了实验，实验结果如下图所示：

文章三：面向知识图谱补全的关系型信息传递方法

与上文相似，本文同样通过目标实体周围的实体和关系信息进行推理补全。本文认为推理时需要同时考虑以下两方面信息：

1）实体的关系型上下文（反映实体本身性质、类型信息）；

2）实体间关系路径（反映实体间的关系）。

基本思想是通过注意力机制融合关系型上下文和关系路径信息，预测实体间关系r的概率。具体方法为：

学习关系上下文表示。通过one-hot表示或者预训练模型BERT来获得关系e初始向量。则子图中的关系表示和实体表示通过L次迭代学习获得：

获得关系的表示后，关系路径的表示SP即可根据路径的关系序列通过RNN方法编码得到。

将节点和路径信息通过注意力方法进行融合。

1）(h, t)的关系型上下文表示为：

2）h->t的关系表示由二者之间的路径表示聚合得到：

其中AGG_path即为聚合过程，每条路径根据具体的头尾实体计算对应的权重：

最后，头尾实体之间存在关系r的概率可计算为：

本文在以下多个数据集进行了实验：

谓词预测的表现如下表所示：

总结

知识图谱推理补全方法是知识图谱领域中长期研究的热门问题，基于表示学习的方法和基于谓词逻辑学习的方法是该类问题的主要解决方案。然而，以上方法在处理稀疏数据时存在一定局限。因此，面向稀疏数据的知识图谱补全是值得研究的重要方向。本文介绍的三种方法中，第一个模型的解决思路是从相似的数据中寻找推理线索，第二个模型则是从目标实体之间的路径入手寻找其中隐含的推理证据，第三个模型更进一步，同时考虑目标实体周围的关系信息以及实体之间的路径信息以共同建模实体之间的关系信息。由于稀疏数据中推理所需的参考信息有限，因此如何找到有价值的参考信息并对其进行建模是解决问题的关键。

参考文献

[1] Galárraga, Luis Antonio, et al. "AMIE: association rule mining under incomplete evidence in ontological knowledge bases." Proceedings of the 22nd international conference on World Wide Web. 2013.

[2] Teru, K., Denis, E., & Hamilton, W. (2020, November). Inductive relation prediction by subgraph reasoning. In ICML (pp. 9448-9457). PMLR.

[3] Wang, H., Ren, H., & Leskovec, J. (2021, August). Relational message passing for knowledge graph completion. In Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining (pp. 1697-1707).

欢迎关注北京大学王选计算机研究所数据管理实验室微信公众号“图谱学苑“
实验室官网：https://mod.wict.pku.edu.cn/
微信社区群：请回复“社区”获取

实验室开源产品图数据库gStore：
gStore官网：http://www.gstore.cn/
GitHub：https://github.com/pkumod/gStore
Gitee：https://gitee.com/PKUMOD/gStore

实体关系图推理

文章转载自图谱学苑，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

论文导读 | 面向稀疏实体的知识图谱补全

评论