关键词:
图表示学习
对比学习
半监督学习
无监督学习
类别不平衡
摘要:
在大数据时代的背景下,数据之间普遍存在紧密的关联性,这种关联性在多个领域中得到体现,如社交媒体中用户间的互动、科学研究中文献间的相互引用,以及生命科学中蛋白质的相互作用等。这种普遍的数据关联性促成了网络大数据的形成。作为一种高效且广泛应用的数据表示形式,图结构数据能够有效捕捉节点之间的关联特性,在网络大数据领域尤为适用。作为一种非欧几里得结构数据,图数据的复杂关联性对现有的深度学习模型和机器学习算法提出了更高的要求,进而催生了图表示学习方法的发展。图表示学习为理解和分析这些复杂的关系型数据提供了有效的工具。然而,由于图规模的快速增长和图的复杂结构,传统的图表示学习方法在计算复杂度和可扩展性方面显示出了一定的局限性。
在这样的背景下,对比学习作为一种强大的自监督学习方法,为图表示学习开辟了新的思路。通过设计对比任务,对比学习能够从大规模图数据中挖掘出丰富的节点关系信息,为图结构数据提供更具判别性和泛化性的表示。目前,对比学习在图表示学习领域已经取得了显著的进展。然而,这一领域仍面临着若干挑战,包括在不同应用场景下设计有效的对比任务、应对数据类别不平衡以及提升领域适应性等问题。本文深入探讨在半监督、无监督以及类别不平衡的场景下,基于对比学习的图表示学习方法,解决现有方法的局限并推动该领域的进步。本文的主要研究内容与贡献如下:
(1)在半监督的场景之下,为解决现有节点级图对比学习方法存在的问题,提出了一种由标签引导的图对比学习框架,以挖掘节点间的语义级特征相似性。具体而言,由于模型的预测包含语义信息,因此在训练过程中利用未标记节点的预测来引导对比学习中的采样过程。由于无法保证对未标记节点预测的准确性,不可避免地会采样到一些错误的正节点。为解决这个问题,引入了一个基于深度聚类的自检查机制,以确保采样的正节点的可靠性。该机制对节点嵌入聚类,只考虑那些在聚类分配和伪标签方面具有一致性的节点对作为正对,从而提高了方法的鲁棒性。此外,还设计了一种基于锚节点概率分布的重加权策略,以增加难负节点的影响。这一策略通过有针对性地选择负节点,特别是难负节点,进一步提高了对比学习的性能。在各种图基准数据集上的实验结果表明标签引导的图对比学习算法具有显著的优越性。
(2)在无监督的场景之下,为更好地探索整体数据的潜在语义结构,提出了一种图原型对比学习(GPCL)框架,将特征相似性的建模从实例级别提升到原型级别。通过构建一个理论框架,将GPCL视为一种在线期望最大化算法。该框架迭代执行在线聚类和图原型对比学习,在这个迭代过程中逐步发现并细化数据的潜在语义结构。具体而言,引入了图原型对比损失函数,其包括一个实例级对比损失,用于建模实例级特征相似性,以及一个原型级对比损失,用于建模原型级特征相似性。原型级对比损失包括两个图对比目标,分别为表示一致性对比目标和聚类一致性对比目标。其中,前者用来学习类内不变和类间区分的表示,后者用来学习同一簇中实例及其增强之间相似的簇分配。通过在大规模无标签数据上预训练,然后在下游任务上微调来评估GPCL,实验结果验证了GPCL的优越性。
(3)在类别不平衡的场景之下,提出了针对类别不平衡的原型图对比学习方法。通过引入原型对比损失,鼓励次要类别生成相对于主要类别可区分的分布。隐式地在学得的平衡特征空间中编码数据的语义结构,形成清晰的决策边界。此外,由于次要节点容易被错误分类为与其具有更多边连接的其他类别,提出了根据负样本的局部和全局的结构特征衡量其难度的方法,重新加权负样本,以进一步提升原型图对比学习的性能。通过实验验证,具有结构感知的原型图对比学习方法在各种流行的类别不平衡图数据集上均取得了有竞争力的结果。