关键词:
特征表示
图嵌入
低秩优化
内积正则化
类局部特征
摘要:
近年来,大数据话题备受人们关注。大数据不局限于数据量之大,而在于隐藏在数据背后的数据价值。如何挖掘大数据中存在的规律,为人们提供有价值的信息,是大数据研究领域面临的挑战之一。为在给定的数据样本上准确地进行推理和预测,需要找到数据合适的特征表示,从而有效地对数据的底层结构进行建模。模型应能反映简洁的全局结构,捕捉数据的表现,并对噪声具有较强的稳健性。寻求数据特征表示的前提是现实世界中的大多数数据具有各自丰富而特有的结构,而如果数据分布是任意的,那么特征表示学习将是不可行的。同时,现实中采样的数据总是有限而且通常含有噪声,这就需要解决如何选择和设计合适的模型和正则化技术。本文通过结合图嵌入,低秩分析,自表示学习,类内与类间关系方法,以描述样本关系为核心,提出了两种无监督特征表示学习方法和一种监督特征表示学习方法,并将其应用在模拟数据、图像数据和生物数据中。通过与最先进的方法对比,验证了本文提出的特征表示方法的有效性。本文主要工作包含以下几个方面:1.提出基于低秩图优化的多视角数据维数约简(Low-Rank Graph Optimiza-tion for Multi-View Dimensionality Reduction,LRGO-MVDR)。基于 图的降维方法在分类和聚类等任务中得到了广泛关注和应用,然而,大多数该类方法只适用于一个视角中的数据。虽然研究者们提出了各种基于多视角的降维算法,但其中使用的图构造策略没有充分考虑到噪声和多个视角间的不同重要性,这将会大大降低算法的性能。LRGO-MVDR方法首先以单个视角的数据样本构建相似度矩阵,并基于构建的多个相似度矩阵构造了一个低秩共享矩阵,以及分别对应于每个视角潜在的噪声的稀疏误差矩阵。其次,通过学习自适应非负权向量来探索各视角之间的互补性。此外,基于交替方向乘子法(Alternating Direction Method of Multipliers,ADMM),提出了一种有效的优化策略。最后,基于低秩共享矩阵采用图嵌入技术对数据进行降维,得到了关于数据特征新表示。2.提出稳健的内积正则化无监督特征选择(Robust Inner Product Regularized Unsupervised Feature Selection,RIRUFS)模型。该模型利用自表示学习描述样本间的相似度关系,以样本相似度关系和样本标签指示向量的差异构造谱聚类模型,并将自表示学习、谱聚类和特征选择结合到统一的框架中。这样,RIRUFS可以很好地揭示数据的底层多子空间结构,并迭代学习最优相似矩阵和标签矩阵。其次,通过在目标函数中引入内积正则化项,使得我们所选择的特征具有独立性和低冗余性。此外,提出了一种有效的迭代更新优化算法来求解RIRUFS模型。此模型得到的特征选择矩阵能够反应出数据的特征重要程度,因此按照重要程度进行特征选择可以忽略对聚类性能影响较小的特征和噪声,起到对噪声的稳健性作用。3.提出了一种新的基于类的局部特征选择(Class-Specific Guided Local Fea-ture Selection,CSGLFS)模型。该模型源于高维数据的每个类样本构成的区域都有独特的最优判别特征子集。现有方法简单地为所有类选择相同的特征子集来表示高维数据。CSGLFS方法中,特征子集学习了局部的变化,使得高维数据在最优特征子集对应的投影空间上更加清晰的描述了类内样本和类间样本的关系。我们还出了适合于此方法的弱分类器来描述测试数据与每个类的相似性,更加准确的对测试数据分类。此外,我们的CSGLFS方法被有效地表示为一个线性规划问题,极大的简化了求解过程。通过观察所选择特征的数量对模型过拟合问题讨论。对于分类问题无关的特征,我们以低概率选择该特征,并且分类准确率在会随着维数的增加达到一个稳定值。