关键词:
图表示学习
图神经网络
图对比学习
课程学习
聚类
摘要:
图对比学习方法是一种自监督学习算法,应用于图数据中。这些方法首先对输入图进行随机增强,以获得两个视图,然后最大化两个视图中之间的一致性,来训练图编码器(GNN)。训练好的编码器可以用来处理大量的无标注图数据。然而,现有方法在构建对比损失时,忽视了图中少量而关键的信息,这些信息对节点或图的性质具有显著影响。同时,现有方法还存在正负样本选取不够合理的问题。本文针对节点分类和图分类两个场景中,现有对比学习方法存在上述不足,提出两个改进的对比学习方法,总结如下:
在节点分类场景中,现有的对比学习方法在优化对比损失时,可能存在三个问题,分别是:无法有效地捕获决定节点类别的关键性信息、正样本选取过于严格、出现伪负样本。现有方法通常在多个视图中,为一个节点生成多个表示,并将这些表示作为正样本对。在某些场景下,这种定义可能过于严格,而且会忽略节点与图中关键部分所共享的信息。来自关键节点及其附近子图的信息,对节点类别有显著的影响。识别出这种关键信息,能够提高节点分类任务的准确性。然而,现有方法无法有效地捕获这种信息。针对这些问题,我们提出一种基于聚类的子图-节点级对比学习方法(CSN)。首先,方法引入关键子图的概念,利用关键子图捕捉图中的关键信息,并将关键子图与节点视为实例来构建对比损失,使得节点能够包含更多的关键信息。其次,方法进一步探索了节点级正负样本的选择过程,并对正样本的概念进行了泛化,将正样本的选择从一对一的方式,扩展到一对多的方式。方法还引入聚类模块,利用伪标签指导正负样本的选择过程,为每个关键子图分配多个正样本实例,改进了正样本过于严格和伪负样本的问题。最后,通过节点分类和节点聚类等实验,验证了CSN在多种数据集上的性能。
在图分类场景中,现有方法可能存在正样本实例之间相似度较低、图中关键部分的特征和结构信息较少融入到图的表示中、缺乏样本的学习顺序的问题。针对这些问题,本文提出一种课程学习式的子图-子图级对比学习方法(SGCC)。首先,利用聚类得到的伪标签,并结合样本间距离,选择正样本对,从而提高正样本之间的相似度,细化正样本的构建方式,解决正样本相似度低的问题。其次,通过采样出多个关键子图,并将这些关键子图与原始图作为固定的正样本对,使图的表示中融合多角度、多方面的关键部分信息。此外,方法还引入图扩散模块,采样结构更丰富的随机子图。将关键子图与随机子图作为实例构建正负样本对,最大化各个子图之间的差异性,促进模型去学习更具有信息量的特征。最后,方法还引入了课程学习模块规划样本的学习顺序,由易到难逐步优化损失函数,增加学习曲线的平滑性。同时,方法利用Memory Bank控制正负样本的数量,提高子图利用效率。实验结果表明,SGCC在图分类等任务中相对于基线模型有明显的性能提升。