关键词:
不完备数据
多视图学习
张量分析
低秩表示
谱聚类
摘要:
数据聚类是数据挖掘领域的重要研究分支之一,是对无标签信息的数据进行归类的一种方法。由于没有标记信息的指导和监督,目前的主流聚类思想是首先利用数据内在的相互关系无监督的学习数据的有效低维表示,以提高不同类簇数据间的区分能力,再将这些低维表示送入经典聚类算法得到聚类结果。传统的低维表示学习模型大多针对具有单一视图的数据。但是单视图在数据描述上的片面不能充分的发挥表示学习模型的潜在能力,进而影响后续聚类任务的性能。随着数据爆发式的增长趋势,数据的表达形式也不断在发生变化,产生了一种称作多视图的数据描述方法。多视图数据是指同一对象可以采用不同的形式对其进行描述,每种形式称为数据的一个视图,该类描述形式蕴含了数据在多个层面的多重信息,可对数据进行更全面的表达。因此,采用多视图数据进行低维表示的学习能够解决传统单视图数据对模型学习能力的限制,获得具有完整特性描述的数据低维表示。然而,真实环境下由于许多客观因素常常导致获取的视图数据受到噪声干扰或发生特征缺失等不完备现象,造成现有多视图学习方法及其在聚类应用方面的性能下降问题。面向这一问题,本文围绕多视图数据的表示学习及其聚类应用展开,提出三种针对高维不完备数据的多视图学习方法,其具体的研究内容包括以下几个方面:(1)提出了一种基于相似性学习的鲁棒多视图学习方法。该方法通过在数据表示中引入低秩约束来弥补噪声和异常值的干扰,学习一个贴近于真实数据结构的数据副本,并将该副本用于鲁棒图的学习。此外,设计了一种多视图方案,通过从所有视图中动态的学习图来获取所有视图图的一致相似性。同时,一致相似性也可以用来传播来自其他视图的潜在信息,从而促进每个视图图的学习。最后,将上述两个过程合并为统一的目标函数,并交替优化获得全局最优解。在四个公共数据集上的实验结果证明,所提方法在相似性学习方面优于现有的大多数方法,且对不完备数据具有很强的鲁棒性。(2)提出了一种基于低秩张量的可靠多视图学习方法。考虑到由于特征缺失所引起的不完备数据学习问题。一方面,该方法将数据补偿模型和图学习放入统一框架中,利用数据补偿模型对缺损数据进行恢复,实现从重建数据中学习样本对间的近邻关系,弥补由于特征缺失对数据原始分布所带来的影响。另一方面,为了同时利用数据的多视图信息并保持近邻图的二维结构,引入张量分析,构造基于多视图的融合图学习约束,进一步捕获不同视图下近邻图间的高阶潜在关联性。此外,设计了一种有效的数值方案对所提目标函数进行求解,并保证了目标函数的收敛性。两种不完备数据的多视图聚类实验结果表明,该方法在多项性能指标和鲁棒性方面均优于当前主流的多视图聚类方法。(3)提出了一种双图下基于不完备数据修复的协同多视图学习方法。不同于当前主流的不完备数据恢复方法,该方法利用多视图数据所具备的一致性和互补性特点,从数据角度出发,直接对不完备数据进行数据值的恢复,使得后续聚类过程所使用的数据是完备且含有大量有效信息的。同时,采用多核协同训练来学习数据的鲁棒表示,并引入低秩张量约束来促进多视图的融合,使得用于聚类的融合图覆盖更多隐藏在多视图数据中的高阶相关性。将上述过程放入一个联合学习框架中,使得变量在迭代过程中可相互促进、传播有效信息。此外,为了有效地对所提方法进行求解,设计了一种交替优化的求解方案。在四个可视化数据集上的实验结果证明,该方法在不完备数据聚类应用上具有明显的优势。