关键词:
图表示学习
基序
课程学习
联合增强
对齐性
均匀性
摘要:
图是一种将数据对象间的复杂关联和交互行为抽象成节点和边的非线性数据结构。除了非结构化的社交网络、购物网络、交通网络外,文本、语音、图像等结构化数据也可以用图存储和表示。图表示学习利用机器学习算法建模图拓扑结构和特征信息中的高维非线性关系,并将节点映射成一组欧几里得表示向量,以便将其应用到节点分类、链路预测、节点聚类等多种图模型类任务场景中。
随着深度学习的发展,图卷积神经网络已经成为图表示学习的主流工具之一。在数据标签的指导下,图卷积神经网络可以建模节点与标签之间的映射关系,并将这种映射关系应用到未标记数据中。然而,由于图数据结构耦合、交互复杂,导致图卷积神经网络难以保留节点间的高阶语义信息。此外,在现实世界中获取数据标签的成本高昂。图对比学习的出现,缓解了图模型对数据标签的依赖。图对比学习作为一种自监督式的图表示学习方法,它的成功得益于图增强策略和对比训练:图增强策略为对比训练提供大量的正、负样本,使模型能够有效的学习正、负样本对之间的差异,进而提高图表示学习模型的判别能力和表达能力。然而,图增强策略忽略节点间的差异,随机删除或增添节点/边/特征,导致图拓扑结构和特征相似性发生改变,进而产生数据增强偏差。在数据增强偏差的影响下,模型在对比训练过程中极易出现模式崩溃等问题。
针对上述问题,本文围绕基于结构保持和特征增强的图表示学习关键技术展开研究。本文主要研究内容及创新点如下:
(1)针对高阶语义难保持的问题,提出了一种基于基序粗化的图表示学习方法。该方法在学习节点表示的同时,有效地融合了不同模式的基序结构信息,同时保留了节点的局部相似性和高阶语义信息。为了挖掘基序中的结构和特征信息,该方法创新性的提出了基序粗化算法,用以捕获不同模式的基序结构,建立节点间的高阶依赖关系。同时,该方法定义了基于基序粗化的基序权重重分配策略,为各个节点分配对应的基序表示以增强节点的表达能力。
(2)针对语义信息易丢失的问题,提出了一种基于课程负采样的自监督图对比学习方法。该方法通过枚举多种图增强策略构建增强视图,缓解了传统图对比学习方法因随机扰动节点/边/特征而导致的语义信息丢失问题。此外,通过引入三元组图神经网络将原始图中的结构和特征信息融合到图对比学习过程中。为了避免因增强视图过多而导致负样本冗余,该方法提出一种课程负采样策略来评估负样本的“难度”,并设计评分函数构建负样本记忆库,以由易到难的方式为对比学习提供训练样本,提升模型对正、负样本的学习和判别能力。
(3)针对数据增强有偏差的问题,提出了一种结构和特征联合增强的图对比学习方法。该方法设计了一种可学习的结构-特征联合增强学习策略,通过约束原始图和增强视图中节点间的一致性和差异性来保持图的语义信息不变,缓解了数据增强偏差问题。具体来说,该方法定义了低频编码器和高频编码器来放大或抑制节点的低频/高频信号,使增强视图同时满足一致性和差异性。通过理论分析证明了结构-特征联合增强策略的正确性和合理性。
(4)针对模型训练易崩溃的问题,提出了一种对齐性和均匀性感知的图对比学习方法。该方法在不依赖任何图增强策略的前提下,使模型学到的节点表示同时满足对齐性和均匀性。为了满足对齐性,该方法设计了簇内对齐损失函数,通过约束节点与其所属簇质心表示向量的对齐性来学习节点表示的不变性。此外,该方法引入了均匀性损失函数,该损失函数倾向于保留异类节点间的差异,使不同类别、不相似节点的表示均匀地分布在向量空间中,避免模式崩溃。通过理论分析证明了簇内对齐损失函数和均匀性损失函数的正确性和合理性。
本文围绕图表示学习领域面临的问题与挑战,开展了基于结构保持和特征增强的图表示学习方法研究,有效的提升了模型的表征能力。实验结果表明,四种图表示学习方法在多个公开数据集的图模型类应用场景中的分类、预测、聚类性能显著提升。