关键词:
表示学习
聚类分析
社团发现
自监督学习
图神经网络
摘要:
近年来,随着信息技术的发展,在生产实践中产生了大量的无标签数据,面对数据的无标签特性、数据类型的多样性以及标记数据的高昂代价等情况,如何利用无监督学习方式来对这些不同类型的无标签数据进行表示学习与知识发现,受到学者们广泛地关注。在实际应用中,分类型数据、流式数据以及图数据越来越普遍。目前针对无监督式的表示学习与知识发现,绝大多数方法存在处理数据类型单一,只能从单视角对数据进行表示,无在线学习机制以及难以处理图数据等问题。鉴于此,本文将深入研究复杂数据下的表示学习与知识发现,利用无监督学习方法,对无标签的数值型数据、分类型数据、流式数据以及图数据的表示学习问题展开研究,提出了一系列应对不同场景与任务的表示学习方法,并将这些方法应用到聚类分析、概念漂移检测以及社团发现中去,并且取得了较好的性能。本文的主要研究内容与创新点概括为如下的三个方面:(1)在无标签非线性可分数据的表示学习和聚类分析问题中,数据类型的差异性给表示学习和聚类分析带来了巨大的挑战。针对传统的集成式聚类算法所得到的结果往往是多个聚类算法的中庸结果,存在无法实现“弱弱生强”的问题,本文提出了多特征融合的软子空间聚类算法,该算法利用不同的降维算法对数据进行降维处理,从而形成多视角特征,并将多个弱聚类器进行加权融合,形成强聚类器。针对分类型数据不具有几何结构,难以有效地对分类型数据进行属性约简的问题,本文提出了依据等价划分来实现数据类型转换的模糊粗糙聚类算法,该算法充分考虑了同一等价类内样本的相似性与不同等价类内样本的相异性,将分类型数据转化成数值型数据,然后对数据进行降维,实验结果证明了算法的有效性。针对数据流中的概念漂移问题,当前已有的数据流聚类算法往往只能应对突变式或渐进式概念漂移,本文提出了自适应数据流聚类算法,该算法采用在线学习与滑动窗口机制,对每一个数据块进行特征变换,并采用阈值划分的方法来检测概念漂移,实验结果证明了该算法能够很好地应对同时含有两种概念漂移的数据流聚类问题。(2)传统的图嵌入算法往往直接利用一阶邻域关系来对节点间的相似性进行度量,然而,一阶邻域关系只能反映出节点间的局部关系,无法从全局的角度来度量节点间的相似性。针对上述问题,本文提出了一种能够融合一阶与二阶邻域关系的图嵌入算法。该算法利用一阶与二阶邻域关系定义了一种模糊隶属度来反映节点间的依赖性并由此形成一个隶属度矩阵,再根据隶属度矩阵来获得节点的嵌入向量,通过这两种邻域关系的融合,该算法能够较好地反映节点间不同粒度下的关联关系。针对传统图嵌入算法缺乏反馈机制的问题,本文在利用图的局部与全局结构信息基础上,进一步研究了反馈机制对图嵌入结果的影响,并提出了带有信息传播机制的流形图嵌入算法,该算法首先利用多跳连接来获得图的高阶信息,然后利用流形学习与低秩学习来获得节点的低维嵌入向量,最终根据图的结构信息来更新嵌入结果。实验结果表明,该算法不但能够利用图的局部与全局结构信息,而且还具有较好的鲁棒性。(3)浅层模型的图嵌入算法一般只能获得图数据的低层次语义特征,并且无法应对带有属性信息的图数据。图神经网络作为一种有效的图表示学习方法,不但能提取高层次的语义特征,而且能够实现属性信息与结构信息的融合。然而,当前绝大多数图神经网络算法难以实现不同高阶近邻信息的融合以及无法有选择性地关注对任务有利的特征。针对上述无标签属性图的表示学习问题,本文从图神经网络与自监督学习的角度出发,提出了一种能够实现高阶近邻信息融合的自监督深度图嵌入算法,并将其应用到社团发现任务中。该算法将不同的高阶信息矩阵输入到多个图神经网络中,从而得到多组高层次语义特征,然后采用加权的方法实现特征的融合,最终图神经网络采用对比学习与负采样机制进行训练,在获得节点的低维嵌入向量后,该算法采用谱传播的方法来进一步增强嵌入结果。实验结果表明,该算法不但能有效地利用图中不同的高阶近邻信息,而且较当前主流算法能获得更好的社团划分结果。