关键词:
簇感知
图表示学习
图自编码器
图对比学习
掩码图建模
簇分布一致性
摘要:
图能够建模现实世界中的多种数据对象,呈现出复杂的拓扑结构和丰富的特征信息。图中固有的簇结构反映了节点之间相似性和紧密链接关系,对于理解真实复杂网络的连接模式和内在群体结构至关重要。
自监督图表示学习通过将图中复杂关系和特征映射为低维稠密向量,捕捉节点关系并刻画图中语义信息,具有广泛的研究意义和应用前景。将簇结构引入图表示学习,可以指导模型学习簇感知的节点表示,提高节点表示质量和泛化能力。然而,现有方法在高效捕捉和利用簇结构方面仍面临挑战。具体而言,图中属性和拓扑均能反映同一网络的簇结构,具有潜在的簇分布一致性,而现有方法缺少对这种一致性的度量。此外,图中簇结构对外界扰动敏感,而现有基于图对比学习的方法大多需要结合增广策略对图进行边或特征扰动来构造对比视图,可能破坏固有簇结构。最后,图数据本身可能含有噪声,如部分节点特征缺失的不完全图,进一步加大了建模图中簇分布和多层次信息的难度,影响表示学习性能。
针对上述问题,本文研究簇感知的自监督图表示学习方法,从强化表示对特定簇敏感任务的针对性以及利用簇结构强化通用图表示学习能力两个角度出发,探究节点表示与簇结构的交互影响,改善图表示学习性能。在图自编码器和图对比学习技术的支持下,本文提出了三种图表示学习方法,主要研究内容和贡献如下:
(1)针对图中属性和拓扑的簇分布一致性学习难的问题,本文利用属性特征和拓扑信息中隐含的簇结构及簇分布刻画二者的一致性,提出了一种基于簇分布一致性约束的簇感知图自编码方法DCP-DEC。该方法提出图和特征自编码表示聚类模块,分别编码图中拓扑和属性特征并重构输入信息,以学习对应的节点表示并建模聚簇分布,明确强化表示对簇敏感任务的针对性。在此基础上,引入簇分布一致性约束,通过刻画属性簇分布和拓扑簇分布之间的KL散度来保证图中两部分信息的潜在一致性。在多个数据集上的大量实验验证了DCP-DEC方法在聚类任务上的优越性能。
(2)针对外界扰动会破坏图中重要信息导致簇结构难以捕捉的问题,本文在保留原图结构的情况下额外生成簇感知的对比视图,提出了基于簇结构保持增广策略的簇感知图对比学习方法GCLCA和GCLCA-CN。GCLCA方法利用k近邻图和边介数中心性思想设计了一种生成式增广策略,用于构建新的特征结构图并与原图构成对比对。然后提出多层次对比机制和表示聚类模块,最大化多个嵌入空间中表示相似性的同时建模两个视图间的簇分布一致性,强化对簇结构的感知能力。在此基础上,GCLCA-CN方法引入簇感知的正负样本采样机制,利用聚簇伪标签进一步优化多层次对比目标并强化表示质量。在多个数据集上进行的大量实验验证了所提方法在聚类任务上的优越性。
(3)针对不完全图中如何融合簇原型和多层次信息学习表示的问题,本文通过捕捉中观簇原型与图中宏观、微观结构信息之间的互补性,提出了一种基于簇原型感知的掩码图对比自编码表示学习方法ProtoMGAE。该方法基于掩码图建模思想构建掩码图并重构掩码特征,为处理不完全图提供了途径。然后将掩码图与原图视为对比对,构建基于在线-目标网络架构的表示对比模块和簇原型感知聚类模块,以学习不同视图节点表示之间的局部相似性和中观簇分布之间的一致性。在多个数据集上的大量实验验证了ProtoMGAE方法在下游任务上的优越性能。
综合来看,本文提出的三个方法旨在从不同的角度设计自监督图表示学习方法,但在思想上存在承上启下的关系。图自编码和图对比学习方法的成功实践启发了本文掩码图对比自编码方法的提出,使得自监督技术在策略上实现整合互补,强化了图表示学习能力。从模型能力上来讲,前两个方法面向特定簇敏感任务,具有比通用表示学习方法更好的簇感知能力,也突出了表示和聚簇联合优化的重要性;而后一个方法面向通用任务,具有更泛化的表示能力,且由于其具有内在的簇感知约束,其在特定聚类任务上的效果也能和前两个方法在一定程度上媲美。