关键词:
图表征学习
社区结构
异质性
符号注意力机制
对称正定矩阵流形
摘要:
随着互联网的普及和数据存储能力的不断提升,现实世界中的数据规模呈现出迅猛的增长。数据实体之间通过对应的关联规则相互连接,形成了庞大而复杂的网络结构(图),如社交网络、蛋白质网络和交通网络等。这些图结构数据不仅具有复杂性和高维性,还蕴含着大量未知的关联信息和隐含关系。然而,由于计算资源(例如时间资源和空间资源)的限制,要想有效地挖掘和分析图数据中的有价值信息,必须对图数据进行适当的预处理和降维操作。图表征学习作为一种新兴的机器学习技术,能够将复杂的图结构数据转化为低维向量空间中的向量表示,为后续的预测、分类等任务提供了建模基础。本文的研究着眼于利用图数据中的社区结构的特性来增强图表征学习的有效性。在图数据中,社区结构指的是图结构中的节点通常形成不同的社区,其中社区内的节点具有较高的相似性,而与其他社区的节点存在较大的差异。根据社区结构中的特征分布,图数据可分为同质图和异质图。在同质性图中,节点往往具有相似的特征,更容易形成信息的簇状结构,从而促进信息的传播。相反,在异质性图中,由于其特征分布具有多样性倾向,对图表征学习方法提出了更高的挑战。当前的图表征学习方法主要针对异质性图中的长距离依赖关系或潜在依赖关系进行建模,对复杂的图关系挖掘不充分,从而影响了图表征学习算法的性能。因此,为了克服异质性图所带来的关系复杂性,本文致力于深入研究图数据中社区结构的特性,探索更有效的复杂关系建模方法,充分挖掘和利用异质性图中的多种结构信息,以期为图表征学习在异质性图上的有效应用提供理论和方法支持。具体的研究内容和贡献总结如下:
1、本文提出了一种基于符号注意力机制的异质性图神经网络模型SAGNN,旨在有效处理异质性图中的正负关系,从而增强图表征的表达能力。在该模型中,引入了符号注意力机制,与传统的非负注意力机制相比,符号注意力机制具备自适应学习相邻节点之间复杂关系的能力。具体而言,该机制通过聚合正负邻居节点的信息,增强正向邻居节点之间的表征相似度,同时降低负向邻居节点之间的表征相似度,从而更全面地捕捉异质性图中的关联信息。此外,本研究还提出了一种精确的高阶邻域聚合方法,用于隐含地编码位置信息,进而指定不同邻域的重要性。这一方法有助于模型更准确地捕捉节点在不同邻域的局部结构特征,进而提高异质性图数据的表征能力。通过在八个基准数据集上进行大量实验,提出的SAGNN模型在节点分类和可视化任务中展现出相比基线方法更为优越的性能,验证了SAGNN在学习节点表征方面的鲁棒性和有效性。
2、本文提出了一种基于适应性深度图卷积的异质性图神经网络模型DCGNN,旨在有效处理异质性图中的环状结构,从而增强图表征的表达能力。目前,基于消息传递模式的图神经网络方法在识别异质性图中的环状结构方面存在一定局限性,即缺乏对局部子结构准确识别的能力。因此,DCGNN模型引入了一种自适应深度图卷积,以强化消息传递神经网络对环状结构的识别能力。自适应深度图卷积通过对局部高阶邻域的自适应聚合,取代了当前消息传递框架中简单堆叠的一阶卷积层。这种深度图卷积的自适应性能够更准确地捕捉异质性图中复杂的结构信息。此外,本研究从理论上证明了DCGNN相较于当前消息传递神经网络具有更为显著的表达能力。通过在八个真实世界的基准网络数据集上进行的实验证明,DCGNN模型在处理异质性图方面的性能超越了多个专为异质性图设计的图神经网络方法。
3、本文提出了一种处理异质性图的图神经网络模型SPDGNN,旨在有效地处理异质性图中的层次结构,进而增强图表征的表达能力。该方法探索了在一种非正曲率矩阵流形上进行图嵌入的可能性。对称正定矩阵流形是一种黎曼几何空间,理论上包含了欧几里得和双曲射影子空间,具有丰富的几何结构和卓越的计算效能。本研究中设计了在对称正定矩阵流形上的图神经网络模型,包括特征变换层、信息聚合层、非线性激活层和多类逻辑回归。这一模型利用对称正定矩阵流形的特性,提升了对异质性图中层次结构的建模效果。通过在九个真实复杂网络数据集上进行的广泛实验,本研究验证了SPDGNN模型相对于采用欧几里得几何和双曲几何的图神经网络模型,在处理包含层次结构和网格结构的复杂网络建模方面的卓越性。