ICML2022中的图数据增强
图相关的研究越来越受到关注,而图数据的增强在很多下游的任务中都有这重要的作用,不同的下游任务需要不同的增强。为什么要进行数据增强(Data Argumentation)呢?深度学习一直以来存在计算量大(落地困难)和模型过拟合的问题。为了解决过拟合问题,从模型本身和数据这两个方面着手,提出了很多有效的方法。数据增强是从数据层面解决过拟合,提高模型的泛化性(generalization)。
比较简单地理解是数据增强首先增大了训练集规模,进一步增加了训练样本的多样性(模拟真实场景中样本可能的状态),由于数据增强是对训练样本的各种有章法的变换,这就使得模型能够学到数据更加本质的特征,增强模型对样本细微变换的适应性(减弱对变化的敏感性)。本文介绍ICML2022相关的研究论文,由于小编涉猎有限,如果您的研究论文也是相关内容,请与小编(微信:GNN4AI)联系,进行补充,让更多的同学看到。
1. G-Mixup:图分类的图数据增强
题目:G-Mixup: Graph Data Augmentation for Graph Classification 作者:Xiaotian Han, Zhimeng Jiang, Ninghao Liu, Xia Hu 论文链接:https://arxiv.org/abs/2202.07179
做过数据增强的同学对Mixup一定不会陌生,简单地说:〉从训练样本中随机抽取两个样本进行简单的随机加权求和,同时样本的标签也对应加权求和,然后预测结果与加权求和之后的标签求损失,在反向求导更新参数。

它是在图像领域一种基本的数据增强方法。Mixup 可以处理如图像或表格数据。然而,直接采用 Mixup 来扩充图数据具有挑战性,因为不同的图通常:1)具有不同数量的节点;2) 不容易对齐;3)在非欧几里得空间中具有独特的类型。为此,作者提出 G-Mixup, 通过插入不同类别图的生成器(即 graphon)来增强图分类。具体来说,坐着首先使用同一类中的图来估计一个graphon。然后,不直接操作图,而在欧几里得空间中插值不同类别的图元以获得混合图元,其中合成图是通过基于混合图元的采样生成的。大量实验表明,G-Mixup 显着提高了 GNN 的泛化性和鲁棒性。


2. 从反事实链接中学习链接预测
题目:Learning from Counterfactual Links for Link Prediction 作者:Tong Zhao, Gang Liu, Daheng Wang, Wenhao Yu, Meng Jiang 论文链接:https://arxiv.org/abs/2106.02172
链接预测对于许多基于图的应用很重要。现有方法通过学习图结构与一对节点之间存在链接之间的关联进行预测。然而,在学习预测图上的链接时,两个变量之间的因果关系在很大程度上被忽略了。

在这项工作中,作者通过提出一个反事实来判断这种因果关系的作用,也就是说:“如果图结构发生了变化,这种联系还会存在吗?”即,反事实链接,对图数据进行增强,提升表示学习。为了创建这些链接,作者采用因果模型,将节点对的信息(即学习表示)视为context,将全局图结构属性视为treatment,并将链接存在视为outcome。作者提出了一种新颖的基于数据增强的链接预测方法,该方法创建反事实链接并从观察到的和反事实链接中学习表示。基准数据的实验表明,作者的图学习方法在链接预测任务上实现了最先进的性能。
作者代码已经公开:https://github.com/DM2-ND/CFLP
3. 图神经网络的局部增强
题目:Local Augmentation for Graph Neural Networks 作者:Songtao Liu, Rex Ying, Hanze Dong, Lanqing Li, Tingyang Xu, Yu Rong, Peilin Zhao, Junzhou Huang, Dinghao Wu 论文链接:https://arxiv.org/abs/2109.03856
GNN 的关键思想是通过聚合来自局部邻域的信息来获得信息表示。然而,邻域信息是否被充分聚合以学习具有少数邻居的节点的表示仍然是一个悬而未决的问题。为了解决这个问题,坐着提出了一种简单有效的数据增强策略,即局部增强,以学习以中心节点为条件的邻居节点表示的分布,并通过生成的特征增强 GNN 的表达能力。

局部增强是一个通用框架,可以以即插即用的方式应用于任何 GNN 模型。它从学习条件分布中对与每个节点相关联的特征向量进行采样,作为每次训练迭代中主干模型的附加输入。广泛的实验和分析表明,当应用于各种基准的各种 GNN 架构时,局部增强始终会产生性能改进。例如,实验表明,在 Cora、Citeseer 和 Pubmed 上的测试准确性方面,将局部增强插入 GCN 和 GAT 平均提高了 3.4% 和 1.6%。此外,作者的方法在大图(OGB)上的实验结果持续提高了骨干网的性能。




