关键词:
网络表示学习
网络嵌入
广义结构
社区结构
属性网络
摘要:
网络型数据作为数据挖掘领域最常见的研究对象之一,在我们的生活中无处不在,现实世界中的许多关系都可以抽象成网络的形式进行表现,其中的节点表示数据对象、边表示数据对象之间的关系。随着信息技术的不断发展和数据规模快速增长,如何将大规模网络在低维稠密的空间进行表示是网络数据存储和处理的关键共性问题,逐渐成为研究者们关注的核心和热点。近年来,网络表示学习的相关工作取得了很大进展,各类方法相继涌现。从网络表示方法上分,有基于特征向量流形不变性的方法和基于神经网络学习的方法,也有基于非负矩阵分解的方法;从保持网络性质的角度来看,有保持网络微观特性(如节点近邻、网络三角结构等)的方法,也有保持网络中观结构(如社区结构)的方法。但是,在网络的诸多中观结构中,除社区结构外,还存在二分结构、星型结构、核心外围结构、混合结构等其它广义结构。因此如何针对网络广义结构进行保持、提出有效的表示学习方法值得深入研究。并且,网络的节点间不仅存在全局的拓扑关系,节点上还常伴随着丰富的属性信息,如何使得网络表示学习的结果具有保持网络中观结构和节点间属性相似程度不变性的能力,值得我们进一步关注。针对以上两个问题,本论文的研究工作主要有:(1)提出一种能够保持广义结构的网络表示学习方法GS-NMF。该方法是一种基于非负矩阵分解的模型,在模型中将原M-NMF模型中的社区结构模块度最大化约束调整为网络结构三因子分解模型。由于三因子分解模型具有网络广义结构学习的能力,因此本文提出方法具有克服原有方法普适性较弱的优点。在含有多种广义结构(社区、二分、混合结构等)的人工和真实网络数据上,通过实验验证了本文提出方法GS-NMF在网络节点聚类、分类及可视化任务上的有效性。(2)在保持广义结构的网络表示学习模型基础上,融合节点属性信息,提出了一种保持网络广义结构的属性网络表示方法GS-ATTR。该方法在模型GS-NMF的基础上,增加了对节点属性相似性的不变性约束。通过与已有属性网络表示学习方法在多个不同结构(社区、混合结构等)网络数据上的对比研究,本文提出的方法不但保持了网络的中观广义结构,相比同类方法在节点分类、聚类任务上都具有较好的效果。且所给方法较之于原有的GS-NMF模型在表示效果上有明显的提升,这也进一步印证了融入节点属性有助于提升后期网络分析任务的有效性。