论文解读｜Node IDs: 学习超短离散节点表示

TuGraph 2025-03-07

547

点击蓝字，关注我们

▍本文为TuGraph社区读者供稿。作者：罗元凯（北京航空航天大学PhD在读，香港理工大学联合培养PhD在读。他的博士研究方向是图神经网络、图表示学习 ）

论文题目：Node Identifiers: Compact, Discrete Representations for Efficient Graph Learning

作者：罗元凯，李宏康，刘奇煚，时磊，吴晓明

单位：北京航空航天大学、香港理工大学、伦斯勒理工学院

日期：2025年2月25日

Node ID 示意图

我们简要介绍了一种名为 Node Identifiers（Node IDs）的新型节点离散表示学习框架。该框架利用向量量化（Vector Quantization，VQ）技术，将经典图神经网络（GNNs）在多层邻域信息聚合后生成的连续嵌入（embeddings），压缩成高效、紧凑（通常6-15维）、并且可解释的离散表示（int4类型）。通过对34个基准任务（涵盖节点分类、图分类、链接预测及图聚类任务）的实证研究，Node IDs 在保证性能表现的同时显著降低了内存占用并加速了推理过程。更重要的是，这些 Node IDs 不依赖可以无缝结合现有的无监督和有监督 GNNs 方法，从而兼顾预测性能与高效推理。本研究为图表示学习在大规模场景下的应用提供了新的思路。

论文链接：https://openreview.net/forum?id=t9lS1lX9FQ

代码链接：https://github.com/LUOyk1999/NodeID

1、引言

在图数据上进行机器学习时，通常要考虑图的结构以及节点/边特征，这广泛应用于节点分类、图分类、链接预测及推荐系统等。现有的大部分图神经网络（GNNs）通过消息传递（message passing）迭代聚合节点邻域的信息，在众多任务上取得了优异的性能。然而，GNNs 在大规模场景中的推理效率往往受限于以下方面：

消息传递的高开销：推理时需要加载完整的图结构，对大规模图（可能包含数十亿条边）会带来巨大的计算与存储压力。

‍

连续嵌入维度高且可解释性差：典型的GNN嵌入通常维度较高（128或256维），不仅影响存储和计算效率，也在一定程度上缺乏可解释性。

‍

为此，我们提出了一个端到端的向量量化框架 NID，可在自监督或有监督训练过程中，不引入重构损失的前提下，将多层 GNN 嵌入直接量化为若干离散编码（Node IDs）。这些 Node IDs 具有以下特点：

1、紧凑与高效：通常只有6-15维，且类型为 int4，可显著提升推理速度并降低内存占用。

2、信息保留充分：在34个数据集的节点分类、图分类、链接预测和带属性图聚类任务中，Node IDs 在高效推理的同时，性能与最先进模型相当或更优。

‍

3、可解释性：由于 Node IDs 以离散码本（codebook）的形式表示多层邻域结构，易于通过码字索引理解节点的聚类模式与语义差异。

基于此，我们的发现表明了 GNN 嵌入存在显著的冗余，而生成的紧凑离散 Node IDs 提供了图数据的高级抽象，这一发现可能为图数据的标记化处理和涉及大模型的应用提供帮助。

2、方法介绍

我们提出的 NID 框架由两个阶段组成:

1、生成紧凑的离散 Node IDs:节点通过多层 GNN 编码，以捕获多阶邻居结构。在每一层中，节点嵌入被量化为一组结构化的代码元组。然后，这些元组被组合成我们所称之为 Node IDs 的表示。

2、利用生成的 Node IDs 作为各种下游任务中的节点表示:我们直接使用 Node IDs 进行无监督任务，如节点聚类。我们使用 Node IDs 训练简单的 MLP 网络进行监督任务，包括节点分类、链接预测和图分类。

2.1 Node IDs 的生成

GNN 不同层节点表征的 t-SNE 可视化

上图展示了 GNN 在不同层次生成的节点表示的不同聚类模式。这种多样性来自于每一层图卷积的连续应用所造成的平滑效应 [1]。为了生成结构感知的 Node IDs，我们采用一个层的 GNN 来捕获多阶邻居结构。在每一层中，我们使用向量量化将 GNN 生成的节点嵌入编码为个代码（整数索引)。对于每个节点，我们将 Node ID 定义为由个代码组成的元组，结构如下：

其中表示第层的第个代码。

NID 架构图

如上图所示，在 GNN 的每一层中，我们使用 RVQ [2]对节点嵌入进行量化，为每个节点生成层次的代码。每个代码是由不同的 codebook 生成的，其中是 codebook 的大小。因此，总共有个 codebook，按索引。设表示待量化的向量。请注意，是 GNN 生成的节点嵌入。当时，表示残差向量。然后，通过其对应codebook 中的最近代码向量进行近似：

生成代码，即最近代码向量的索引。

我们提出了一个简单的通用框架，通过联合训练 GNN 和 codebook 来学习Node IDs（代码），并使用以下损失函数：

其中是（自监督/监督）图学习目标，是向量量化损失。旨在训练 GNN 生成有效的节点嵌入，而确保 codebook 向量与节点嵌入对齐。对于单个节点，定义为：

其中表示停止梯度操作，是权重参数。上式中的第一项是 codebook loss [3]，它仅影响 codebook，使所选代码向量与节点嵌入接近。第二项是commitment loss [3]，它仅影响节点嵌入，并确保节点嵌入与所选代码向量接近。

总结：

我们的 NID 框架与 VQ-VAE [3]及类似方法（如 VQGraph [4]）在 codebook 学习方面有所不同，我们的训练目标不涉及使用代码向量()进行重建任务，而是通过图学习任务()引导 codebook 学习过程。

近期研究 [5,6] 表明，经过合适调参的经典 GNNs 在节点分类和图分类任务中仍能达到 SOTA 方法的竞争性表现。因此在实验中，我们使用了经典 GNNs（GCN、GAT、SAGE、GIN）进行 Node IDs 生成。

2.2 Node IDs 在下游任务中的应用

生成的 Node IDs 可以视为高度紧凑的节点表示，并直接用于各种下游图学习任务，如下所述。

节点预测任务包括节点分类和节点聚类。对于节点分类，图中的每个节点都与一个标签相关联，表示其类别。我们可以直接利用带标签节点的 Node IDs 训练 MLP 网络进行分类。预测公式为：

对于节点聚类，可以直接将基于向量的聚类算法，如-means，应用于 Node IDs 以获得聚类结果。

边预测任务通常涉及链接预测。目标是预测任意节点对之间是否应存在一条边。预测可以通过以下方式进行：

其中表示 Hadamard 积。

图预测任务包括图分类和图回归。这些任务涉及为整个图预测类别标签或数值。预测可以表达为：

其中对所有 Node IDs 应用全局均值池化函数，生成图的表示，然后输入 MLP 进行预测。

注意，选择读取函数（如均值池化）被视为一个超参数。

3、实验结果

学习得到的 Node IDs 通常由 6-15 个 int4 整数组成，可作为高效的节点表示。在多个任务中，它们表现出与 SOTA 方法相当或更优的性能，同时显著提升计算速度和内存效率。

3.1 监督表示学习

监督学习实验结果

3.2 无监督表示学习

无监督学习实验结果

3.3 Node IDs 的分析

Node IDs 的分析

Codebook崩：发现 VQGraph 存在严重的 codebook 崩溃问题，即大多数节点被量化为少数几个代码向量，导致大部分 codebook 未被使用。相比之下，NID实现了高 codebook 使用率，有效避免了 codebook 崩溃。

可解释性：观察 Node IDs 的码字索引分布，发现其可以有效区分不同类别的节点，具有较强的语义可解释性。

子图检索：利用 Node IDs的Hamming距离 进行子图匹配，效果优于现有的 VQGraph 的结果。

推理加速：在 ogbn-products (节点数百万级)上，NID 推理时间从11.9s降至0.7ms。

4、总结

我们提出的 NID 框架可在自监督或有监督训练过程中，不引入重构损失的前提下，将多层 GNN 的连续嵌入直接量化为紧凑、离散且可解释的 Node IDs。通过广泛的实验与消融研究，我们验证了 Node IDs 在多任务、多数据集上的高效性与实用性。相比传统 GNN 嵌入，Node IDs 不仅大幅降低推理时的内存与计算开销，而且在一系列场景中保持了有竞争力甚至更佳的预测性能。这一方法为在大规模图上实现实时、高效的推理提供了新的⻅解，也为后续在图数据与大模型结合(如图标记化、LLMs 应用)带来了新的思路。

参考文献：

[1] Qimai Li, Zhichao Han, and Xiao-Ming Wu. Deeper insights into graph convolutional networks for semi- supervised learning. In Thirty-Second AAAI conference on artificial intelligence, 2018.

[2] Julieta Martinez, Holger H Hoos, and James J Little. Stacked quantizers for compositional vector compression. arXiv preprint arXiv:1411.2173, 2014.

[3] Aaron Van Den Oord, Oriol Vinyals, et al. Neural discrete representation learning. Advances in neural information processing systems, 30, 2017.

[4] Ling Yang, Ye Tian, Minkai Xu, Zhongyi Liu, Shenda Hong, Wei Qu, Wentao Zhang, Bin CUI, Muhan Zhang, and Jure Leskovec. VQGraph: Rethinking graph representation space for bridging GNNs and MLPs. In The Twelfth International Conference on Learning Representations, 2024.

[5] Yuankai Luo, Lei Shi, and Xiao-Ming Wu. Classic gnns are strong baselines: Reassessing gnns for node classification. arXiv preprint arXiv:2406.08993, 2024.

[6] Yuankai Luo, Lei Shi, and Xiao-Ming Wu. Unlocking the potential of classic gnns for graph-level tasks: Simple architectures meet excellence. arXiv preprint arXiv:2502.09263, 2025.

·END·

欢迎关注TuGraph代码仓库✨

TuGraph-DB 图数据库

https://github.com/tugraph-family/tugraph-db

TuGraph-Analytics 流式图计算引擎

https://github.com/tugraph-family/tugraph-analytics

TuGraph-AGL 图学习引擎

https://github.com/tugraph-family/tugraph-antgraphlearning

文章转载自TuGraph，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。