NeurIPS2020 | 图对比学习 | 结合四种数据扩充方式进行对比学习(附论文代码链接)

深度学习与图网络 2020-11-07

671

上周学习了一篇图对比学习的文章图对比学习 | 结合图的结构信息和节点特征的图对比学习，该工作发布在了arxiv上，时间是10月27日。今天又看到一篇NeruIPS的文章，发布的时间是10月22，文章标题都快一样了，巧了，有点意思，两篇论文都涉及了数据增，以及结合互信息进行分析，也有较多不同的地方~

对图结构化数据的通用性，可传递性和鲁棒性表示学习仍然是当前图神经网络（GNN）面临的挑战。与针对卷积神经网络（CNN）开发的图像数据不同，针对GNN的自监督学习和预训练的探索较少。在本文中，作者提出了一种图对比学习（GraphCL）学习框架，用于学习图数据的无监督表示。首先设计四种类型的图扩充，以结合各种先验。然后，在四种不同的情况下系统地研究图扩充的各种组合对多个数据集的影响：半监督，无监督和迁移学习以及对抗攻击。

结果表明，即使不调参或不使用复杂的GNN架构，与最新方法相比，GraphCL框架也可以生成具有相似或更好的通用性，可传递性和鲁棒性的图表示。

Code：https://github.com/Shen-Lab/GraphCL
Paper: https://arxiv.org/abs/2010.13902
Appendix: https://yyou1996.github.io/files/neurips2020_graphcl_supplement.pdf

本文指出GNN预训练有一定的必要性，但也提出之前预训练的方法存在一些问题，“这种过于强调邻居的方案并不总是有益处的，还可能会损害结构信息”。so，需要一个设计合理的预训练框架来捕获图结构数据中的高度异构信息。

本文贡献

在本文中，针对GNN的预训练，作者提出了具有增强功能的对比学习，来解决图中数据异质性问题。

由于数据增强是进行对比学习的前提，但在图数据中却未得到充分研究，因此首先设计四种类型的图数据增强，每种类型都强加了一定的prior，并进行了参数化；
利用不同的增强手段获得相关view，提出了一种用于GNN预训练的新颖的图对比学习框架（GraphCL），以便可以针对各种图结构数据学习不依赖于特定扰动的表示形式；
证明了GraphCL实际上执行了互信息最大化，并且在GraphCL和最近提出的对比学习方法之间建立了联系；
证明了GraphCL可以重写为一个通用框架，从而统一了一系列基于图结构数据的对比学习方法；
评估模型在各种类型的数据集上不同扩充方案的性能，揭示模型性能的基本原理，并为采用特定数据集的框架设计提供指导；
GraphCL在半监督学习，无监督表示学习和迁移学习的设置中达到了最先进的性能，此外还增强了抵抗常见对抗攻击的鲁棒性。

对比学习（Contrastive Learning）：在适当的变换下使得表现形式彼此一致。通过在不同的扩充view下最大化特征的一致性来学习表示，而这些view是在保持特征不变性的情况下通过特定于数据或者任务的扩充手段获得。对于图数据而言，尝试重建顶点的传统方法被视为一种局部对比，而过分强调邻接信息却同时也受邻接信息所制约。

数据增强（Data Augmentation）：通过应用某些合理的转换，在不影响语义标签的情况下创建新颖而现实的数据

图的数据增强

数据扩充的目的是在不影响语义的前提下，通过应用一定的转换来生成新颖的、合理的数据。除了一些计算代价昂贵的图外，对图数据增强目前研究还不够深入。图数据集来自不同领域，较难获取图中直观且通用的图数据增强方式。下图是本文总结的4种数据增强手段：

Node dropping：随机从图中去除掉部分比例的节点来扰动G图的完整性，每个节点的失活概率服从i.i.d的均匀分布；
边扰动：随机增加或删除一定比例的边来扰动G 的连通性，每个边的增加或者删除的概率亦服从i.i.d的均匀分布；
属性屏蔽：随机去除部分节点的属性信息，迫使模型使用上下文信息来重新构建被屏蔽的顶点属性。
子图划分：使用随机游走的方式从G 中提取子图的方法。

有以下3种方法。

图对比学习GraphCL

如下图所示，通过潜在空间中的对比损失来最大化同一图的两个扩充view之间的一致性，来进行预训练。

模型由4部分组成：

图数据增强
基于GNN的编码器：GNN范式，先聚合邻居再readout成图的embedding；
投影：使用双层MLP表示；
Contrastive loss：，使得与负样本对相比正样本对之间的一致性最大化（这里是指的两种数据增强方式之间的一致性）损失函数加入了temperature parameter，最终损失是在小批量中所有正对之间的和表示。

算法流程图如下：

GraphCL可以被视为两种增强图的潜在表示之间相互信息最大化的一种方式，见附录F，这里不提供详细介绍。损失改写如下：

上述loss本质为最大化的互信息下界。此外，通过重新解释上式，可以将GraphCL重写为一个通用框架，以统一针对图结构化数据的对比学习方法。

图对比学习中数据增强扮演的角色

数据集介绍见下表。

本节评估了GraphCL框架中图的数据增强作用。如图所示，以半监督人物为例，横轴、纵轴分别表示框架图中的两个增强方式的具体实施方案，其中Identical表示原图数据，不同的数值变化表示相比于与baseline之间的精度波动。

我们可以看到一些有趣的现象：

数据扩充对图对比学习至关重要。当应用适当的扩充时，会灌输数据分布上的相应先验，从而通过最大化图及其扩充之间的一致性来使模型学习对所需扰动不变的表示。
组合不同的扩充方式会带来更多的性能收益。与图中对角线的增益相比，最优的增益往往在应用不同的数据扩充方式进行对比学习时获得。这点在视觉对比学习任务中也有类似的结论，组合不同的扩充方式会避免学习到的特征过于拟合low-level的"shortcut"，从而使得特征更加的具有通用性。此外，训练不同的特征之间的对比学习模型会使得收敛速度下降。

有效图扩充的类型、范围和模式

直接上实验和结论：

（1）边缘扰动有益于社交网络，但会伤害一些生化分子图。这取决于边的重要程度（图4左2）。

(2) 应用属性masking可在更密集的图中实现更好的性能（图4右2）。

（3）节点删除和子图通常对图数据集有益。节点删除在丢失某些顶点不会更改语义信息的先验条件下直观的迎合了我们的认知。子图刻意增强局部（即子图）和全局信息的一致性有助于表示学习。

（4）过于简单的对比任务无济于事

在本文中，作者探索针对GNN预训练的对比学习。首先，提出了几种图数据扩充方法，并介绍某些特定的数据分布先验的基础上进行了讨论。随着新的扩充，作者为GNN预训练提出了一种新颖的图对比学习框架（GraphCL），以促进不变表示学习以及严格的理论分析。作者系统地评估和分析了提出的框架中数据扩充的影响，揭示了其原理并指导了扩充的选择。实验结果验证了提出的框架在通用性和鲁棒性方面的最新性能.

数据库

文章转载自深度学习与图网络，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。