关键词:
属性网络
表示学习
注意力机制
异常检测
摘要:
随着信息技术的迅速进步,网络数据的体量和复杂性呈指数级增长。特别是在社交网络平台上,我们可以观察到包含数亿用户及其庞大交互数据的复杂网络结构。这些用户不仅频繁地参与互动,而且还携带了丰富的属性信息。这种由网络结构与节点的属性共同定义的复合系统,构成了属性网络。属性网络表示学习旨在将网络中的节点映射到低维空间,以深入挖掘其中的行为模式。学习到的向量表示有助于理解网络结构的生成原因,还能作为知识指导如疾病传播预测、舆情控制、交通规划等实际应用问题。鉴于其广泛的应用价值,属性网络表示学习在近期受到越来越多的关注和研究。
然而,目前在属性网络表示学习的关键步骤中,现有研究在各个阶段都存在不足。在网络构建初期,从结构化数据中提取非结构化的网络拓扑信息往往依赖于经验规则,这会导致关键信息的缺失或冗余。其次,在近似关系挖掘时现有方法关注于保留节点间的强近似关系,忽略了高阶的邻域近似关系。此外,在节点近似性保存时,现有研究方法忽略了网络结构和属性间的不一致性问题,即网络结构上紧密相邻的节点对存在完全对立的属性特征。最后,在生成节点表示阶段,单一的节点或边关系的向量表示,难以捕捉它们在不同上下文关系下的语义多样性和意图多样性。本文旨在探讨各关键步骤中的问题,并提出相应的解决方案,主要贡献概述如下:
1、针对属性网络构图中出现的信息缺失和冗余问题,本文从实际应用出发,提出了一种基于注意力机制的属性网络表示学习算法。其中,基于子图采样的层级构图方式用于提取局部网络结构数据。同时注意力机制被引入到每一层子图结构中,以达到筛除无关信息的目的。不同于传统欺诈检测分散的提取数据、设计特征、分类流程,本文设计了一套从原始数据采样到属性网络数据生成,再到下游任务分类的整体检测框架。实验结果表明,本研究方法在准确性上较现有欺诈检测方法有显著提升。
2、现有的属性网络表示学习方法主要保存节点间的强近似关系,如结构上直接链接,共享同一批邻居或属性特征近似等情况。邻域近似性作为一种高阶的弱近似性关系,指的是一个节点及其周围邻居的集合在结构或属性上与另一个节点及其邻域的相似程度。它在属性上表现为集合中节点属性分布的相似程度,在结构上表现为节点在集合内部扮演角色的相似程度。针对邻域近似性被忽略的问题,本文设计了基于图级别对比学习的属性网络表示学习聚类算法。不同于传统方法仅基于确定的成对近似性关系构建正负样本对,本文通过定义和探索节点邻域群间的近似性关系,将近似性关系保存拓展至图级别,并发现更多潜在的正样本对。在真实世界的数据集上的实验结果,很好证明了本文的方法相比于现有最先进方法,能够获得显著性能提升。
3、针对属性网络中网络结构和属性特征不一致的问题,本文提出一种基于双重注意力的对抗自编码器算法。算法通过保存网络结构和节点属性间的一致性和互补性,削弱因噪声链接和网络数据不完整导致的对立冲突。研究中引入的属性注意力机制旨在、减弱噪声链接的影响,而结构注意力机制则在不同深度的结构中分配权重,以还原更完整的网络结构。此外,我们开发了一种高效的对抗学习方法,帮助算法模型将两种异质表示嵌入到统一的向量表示中。在三个真实世界网络数据集上的广泛实验表明,所提出的算法在节点分类、链接预测及网络可视化方面都达到了最先进的结果。
4、针对单一节点向量表示无法表征多样的语义关系问题,本文提出了一种基于上下文感知的异常检测算法。算法通过互注意机制为每条边上的节点对计算独有的基于上下文感知的向量表示。该表示向量能够提取并表征节点属性中与该次链接相关性最紧密的属性特征。丰富的上下文信息又为节点向量的生成提供了多角度视图,进而算法可以根据向量内部比较迅速定位到局部异常链接。此外,算法设计了异常门控机制为节点对分配全局异常分数,通过联合优化基于上下文的节点表示学习和异常门控机制,模型能够生成更优质的表示向量,并在局部与全局层面协同识别异常。在多个异常网络数据集上的实验,证实了所提出算法的优越性。
5、针对边关系内部存在的多意图纠缠问题,本文提出了基于意图级负采样的解耦属性网络表示学习算法。算法通过邻居路由机制,在边关系上实现了对不同潜在偏好因素的有效解耦。算法将现实网络转化成基于兴趣偏好的意图网络,并为节点生成相应的解耦表示。同时,基于兴趣偏好的正则化机制被嵌入表示学习过程中,以确保各个解耦子空间独立表征单一的兴趣偏好。除此以外,本文还设计了一种对抗性负采样策略,根据解耦后不同的用户意图,负采样策略会自适应地提供高质量的难负样本。在多个真实世界数据集上的实验证明了本文提出的模型相比当前相关研究在各个方面均有显著的性能提升。