关键词:
无监督学习
社区划分
图表示学习
图对比学习
互信息
摘要:
图数据结构在现实世界中广泛存在,不同领域的图数据各具特色。如何从丰富的图数据中提取关键信息,成为了一项富有挑战性的任务。图表示学习为解决这一问题提供了有效的途径,其核心目标在于获取图结构数据的高维表示,即图嵌入,进而利用这些嵌入完成图分类、节点分类、链路预测等下游任务。
早期的图表示学习主要依赖于有监督学习,即使用已标注标签的数据集进行模型训练。然而,在现实中,图数据集往往缺乏标注标签,导致标注工作繁重。因此,无监督(自监督)学习逐渐成为图表示学习的主流方法,其通过不带有标签的数据集进行模型训练从而避免了这一问题。作为一种优秀的无监督学习方法,图对比学习通过构建自我对比目标来训练模型,并有效地解决了无标签数据集的学习问题,展现出了强大潜力。在缺少标注标签的现实世界图数据集中,图对比学习能够自动捕捉图结构中的内在规律和模式,并提取出有用的特征表示。这种方法极大地推动了图表示学习领域的发展,并为下游任务如图分类、节点分类和链路预测等提供了有力支持。
然而,尽管图对比学习取得了显著进展,但仍然面临着一些挑战和限制。如图对比学习中的图增广器难以适应不同领域数据集的特点、对比学习过程中的负样本质量不佳以及图对比学习缺乏理论支撑等问题。为了解决这些挑战,本文提出了三种不同的改进图对比学习方法,主要贡献如下:
(1)针对图对比学习方法难以适应不同领域数据集的问题,本文提出了一种基于自适应图增广器的图对比学习方法(Auto-AG方法),通过构建自适应图增广器,为每个节点选择合适的增广方式。该方法使用神经网络构建多个不同参数的自适应图增广器,每个自适应图增广器都会为输入视图中的每个节点生成对应的视图增广概率矩阵,节点的增广策略将根据增广矩阵计算,得到多个增广视图,通过反向传播优化自适应图增广器,使得自适应增广器为不同的输入视图学习到最合适的增广方式,在输入视图和多个增广视图进行正负样本的采样并进行训练用以优化编码器,最后进行图分类测试。实验结果表明,该方法在三个数据集上的结果均优于其他对比方法。
(2)针对图对比学习方法中负样本对质量低的问题,本文提出了一种基于负对优化的自适应图对比学习方法(C-NP),首先构建社区划分模块,初始化社区中心节点矩阵和节点分配矩阵,使用图数据真实边密度和期望的边密度的差异作为优化目标不断优化社区中心节点矩阵和节点分配矩阵。在对比学习模块使用不同参数的自适应图增广器产生多种不同增广视图,自适应地为不同数据集选择不同增广策略偏好,在采样负样本的过程中,选择不同社区的负样本对,用于优化图对比学习原有的负样本采集策略,能够在不增加算法复杂度的情况下提升负样本质量。实验结果表明,在节点分类和节点聚类任务上,该方法在六个数据集上均优于对比模型。
(3)针对图对比学习方法缺乏理论解释的问题,本文提出了图最小化原则(GIM)与基于图信息最小化原则的自适应图对比学习方法(IMCL)。通过探究增广视图与互信息之间的关系解释高质量的增广视图的产生条件,解释了增广视图和图对比学习方法性能之间的关系,具体而言,高质量的增广视图需要在不改变原有标签的情况下,保持与输入视图的最小互信息水平。IMCL方法使用自适应图增广器与伪标签生成器,通过自适应图增广器产生增广视图并限制其与原视图互信息最小,同时通过伪标签生成器限制增广视图标签不发生改变,从而实现图信息最小化原则。实验结果表明,该方法在六个数据集上均取得最优或次优的结果。