关键词:
异质图表示学习
动态异质图
无监督异配图
欺诈检测
联邦图学习
摘要:
在数字化时代,信息爆炸式增长,蕴含复杂交互行为的图结构数据激增,如社交网络中的用户关系数据、电子商务平台的交易数据和智能交通系统中的交通流数据。有效理解和挖掘图结构数据中隐藏的信息,在社交网络分析、推荐系统和知识发现等领域具有重要价值。然而,传统的图分析模型在应用时存在明显的局限性。一方面,其受限于图结构的稀疏性,计算效率低下,信息提取不足;另一方面,计算资源的巨大消耗也限制了其在大型图数据上的应用。考虑到图结构中复杂交互涉及多种类型对象,异质图作为一种图结构数据的典型描述方法被提出并广泛应用于复杂交互行为的建模,其将多种类型实体(如用户、文本和产品)作为节点、实体之间多种类型的关系(如朋友、转发和购买)作为边,映射出现实世界中的复杂交互模式。
基于异质图的表示学习能够从复杂的图结构中学习节点的低维向量表示,为深入分析和挖掘复杂关联关系提供基础。但随着应用场景的扩展和数据规模的不断增长,当前的图表示学习方法面临着新的挑战和需求。首先,在处理动态变化的复杂交互数据方面,现有方法大多聚焦于静态同质图,难以充分保持图上的动态特征和异质语义,在捕捉邻域演化特征方面存在局限性。其次,在处理包含多样化异质交互关系的图数据方面,图中节点数量庞大且标签稀疏,不同类别节点的交互日益频繁,不满足传统的同类相连的同质性假设,限制了异质图表示学习方法在无监督学习场景下对异配图的泛化能力。第三,在欺诈检测的应用场景中,欺诈用户行为具有伪装性,其往往会伪装自身行为使其与正常用户的行为模式相似,使得现有的图表示学习方法面临生成的节点表示向量混杂的问题。第四,在跨机构协作的应用场景中,跨机构之间的交互行为需要保证数据的安全,而异质图表示学习集中式训练方式存在数据泄露的风险,同时直接将联邦学习方法应用于异质图表示学习则面临数据异构分布导致全局模型聚合效果不佳的问题。
针对上述问题,本文在节点交互动态性、节点标签稀疏性及交互异配性、欺诈检测应用和跨机构协作应用四个方面进行了深入研究,具体如下:
(1)动态异质图表示学习。针对动态异质图表示学习邻域结构建模不足的问题,提出一种基于邻居增强的动态异质图表示学习方法(Neighbor-enhanced Dynamic Heterogeneous Graph Representation Learning,Nei Dy HGL),旨在同时编码节点属性、邻居交互信息和图结构演化特征。该方法通过节点自注意力和边自注意力机制编码异质图中的共同邻居和邻居交互信息,同时设计了卷积操作细粒度刻画不同时间片的节点表示向量,并引入时序注意力机制捕捉节点在不同时间的重要性,进一步增强了模型对时间演化特征的学习能力。在多个公开数据集上的对比实验结果表明,Nei Dy HGL有效提高了动态链接预测的准确性,为动态异质图分析提供了新的解决方案。
(2)无监督异配异质图表示学习。针对无监督异质图表示学习对异配图泛化不足的问题,提出一种基于双自编码器的无监督异配异质图表示学习方法(Unsu-pervised Heterophilic Heterogeneous Graph Representation Learning,Un H2GL)。该方法在高阶邻居自编码器中设计了一种高阶邻居层次注意力机制,捕捉节点与其k阶邻居之间的重要性以及不同元路径间的语义重要性。在解码器中,通过反转编码过程来重建高阶结构。同时,设计了节点子图结构自编码器,将节点子图结构特征进行编码和解码,使距离较远但具有相同子图结构特征的节点表示向量相似。该方法不仅适用于同配异质图也适用于异配异质图,可在不依赖数据标注的情况下对数据集进行直推学习和归纳学习。在多个公开数据集上的对比实验结果表明,Un H2GL实现了对异配异质图有效的节点表示学习,并在无监督学习场景下有效提高了节点分类精度。
(3)面向欺诈检测的异质图表示学习。针对欺诈检测中伪装节点混淆表示的问题,提出一种面向欺诈检测的异质图指针网络表示学习方法(Heterogeneous Graph Pointer Network,HGPN)。HGPN利用指针网络进行节点过滤以选择与目标节点最相关的邻居,并提出了基于节点嵌入的欺诈节点生成方法学习欺诈节点特征,设计了一种双分类器联合训练方法降低对欺诈节点的预测偏差。在两个公开欺诈检测数据集上的对比实验结果表明,HGPN在欺诈检测任务中可以有效识别欺诈节点,提高了欺诈节点识别的准确率。
(4)面向跨机构协作的异质图表示学习。针对跨机构协作中异质图表示学习集中式训练方式存在数据泄露风险的问题,提出一种面向跨机构协作的联邦异质图表示学习方法(Federated Heterogeneous Graph Learning,Fed HGL),旨在实现数据存储在本地的同时降低数据类别不平