关键词:
图表示学习
自监督学习
对比学习
数据增广
负采样策略
摘要:
由于图数据的强大表现力,利用深度学习方法分析图的研究越来越受到重视。图神经网络(Graph Neural Network,GNN)是一类基于深度学习的处理图域信息的方法。它将网络表示为低维向量,用于节点分类、社区发现、链接预测等下游任务,已成为一种广泛应用的图分析方法。GNN通常利用任务标签来学习表征。然而,图数据的标签往往不易获取,且人工标记成本较高。因此,图自监督学习引起了广泛的关注成为一个重要的研究方向。图对比学习(Graph Contrastive Learning,GCL)是当前图自监督学习的主流方法之一。其主要框架主要在数据增广、代理任务(pretext tasks)和损失函数上进行创新。当前虽然提出了大量的图数据增广方法,但设置较为复杂和需要设置较多的超参数;同时,在代理任务中通常将经过锚节点增广的样本视为正样本,其余样本都视为负样本。但其中一些负样本与锚节点标签一致,它们仍然被视为负样本,这些被打错标签的样本称为“伪负样本”,会影响模型的学习。因此,本文对图数据的增广方法进行了研究,设计了一种只需要较少先验知识的增广方法;此外,考虑到随机负采样方法存在伪负样本的问题,本文充分利用了图数据的属性和拓扑结构信息来逐步检测伪负样本,并将其修正为正样本。具体研究内容包括:(1)针对当前图数据增广方法的超参数多造成模型复杂的问题,提出了基于Mixup增广的图对比学习模型。具体来说,首先,定义了弱正关系的概念,构造了类别平滑分布的正负样本。基于这个这个概念提出了节点Mixup增广。将原始图作为第一个视图,再将原始图进行Mixup增广得到的视图作为第二个视图;其次,将两个视图经过图卷积网络(Graph Convolution Network,GCN)编码器学习得到每个视图的节点表示,再经过多层感知机(Multi Layer Perceptron,MLP),将表示映射到潜在空间中计算对比损失;最后,通过对比损失来约束正负样本的节点表征,同时也会Mixup增广节点对间的标签信息,获得比较准确的节点表示。(2)针对伪负样本会降低图对比学习模型性能的问题,本文提出了一种结构和属性感知的图对比学习模型。首先,利用图数据增广方法对原始图进行增广得到两个不同上下文的视图;接着对两个视图进行GCN编码器学习得到每个视图的节点表示,再经过MLP层,将节点表示映射到潜在空间增强表示;然后,进行伪负样本检测,检测方法包括:属性感知和结构感知。在属性感知方面,设置了随训练过程自适应的属性阈值,计算每个节点对之间的属性相似度,根据属性阈值检测伪负样本;在结构感知方面,设置静态的结构阈值,计算每个节点对之间的结构相似度,根据结构阈值检测伪负样本;最后,通过对比损失约束正负样本的节点表征,得到泛化性更强的节点表征,用于不同的下游任务。本文在多个真实世界的数据集上进行了充分的实验,用节点分类作为下游任务对模型进行评估,将GRACE、MVGRL、GCA等经典图对比学习模型作为基准模型,采用准确率作为评价指标。实验结果表明,本文提出的模型学习到的节点表示泛化性优于基准模型。