关键词:
异构图
图表征学习
注意力机制
元路径生成
信息补全
摘要:
异构图表征学习方法能够精准捕捉图中不同类型节点之间的内在联系,并结合节点的结构信息和语义信息,将原本复杂多样的节点特征投影到低维空间中,转化为具有连续数值的向量表示。这些向量可以进一步用于节点分类、链接预测、社群发现等分析任务。因此,异构图表征学习在数据挖掘领域备受关注。
然而,当前的异构图表征学习方法仍存在一些缺陷。首先,主流方法采用元路径建模的方式来学习图的异构性,但元路径的多样性和复杂性需要具有先验知识的研究人员针对性地设计。其次,部分模型尝试通过邻接矩阵进行建模,但邻接矩阵存在节点连接丢失和错误连接信息等问题,难以准确地反映节点间真实连接关系。此外,异构图中存在邻域信息不平衡现象,缺乏丰富图结构的节点能够获取到的邻居结构信息有限。最后,部分节点丢失了属性信息,多数模型采用的简单填充方式容易引入噪声。
为了解决上述问题,本文对异构图表征学习方法进行研究,提出了以下创新:
(1)针对元路径需要先验知识进行预定义的问题,提出一个基于元路径生成和注意力机制的异构图表征学习模型。该模型能够从按边类型划分的邻接矩阵中选择矩阵进行相乘操作,学习到任意长度的元路径图。然后利用卷积操作,得到基于元路径的节点表示。通过注意力机制将邻居节点携带的元路径信息融合到目标节点中,生成最终的节点嵌入值。在不同数据集上进行了大量实验,各项评估指标明显优于具有代表性的图表征学习模型,表明基于元路径生成和注意力机制的异构图表征学习模型具有显著优势。
(2)针对异构图邻接矩阵存在节点连接丢失和错误连接的问题,提出一个基于关系挖掘的异构图表征学习模型。该模型考虑到高相似度的节点之间可能存在连边的情况,引入关系图生成器,补充可能丢失的连边信息。接着,通过对象级聚合模块将邻域信息聚合到邻居节点中,完善了邻居节点上下文语义信息。最后,利用节点之间的连边结合多头注意力机制将源节点信息传递到目标节点中,避免了元路径的使用。在多个数据集上进行了节点分类和链接预测等实验,结果表明基于关系挖掘的异构图表征学习模型比基线模型具有更好的嵌入效果。
(3)针对节点邻域信息不平衡和属性不完整问题,在基于关系挖掘的异构图表征学习模型基础上,进一步提出一个基于信息补全的异构图表征学习模型。具体而言,模型利用节点相似性选择目标节点最优邻节点进行特征聚合,初步获取节点的属性特征。然后,通过邻域转移模块获得可转移向量,捕捉节点理想邻域和其现实邻居节点之间的信息差值,从而利用这一差值解决头节点和尾节点之间的不平衡问题。通过这两个方式将节点信息补充完整后,结合关系级聚合模块获得最终的节点表示。在三个数据集上进行的实验分析结果表明,基于信息补全的异构图表征学习模型优于最先进的基线模型。