关键词:
半监督分类
流行正则化
逐点光滑性
对抗学习
深度域适应
摘要:
随着科学技术的不断进步,当今世界各个领域随时随地都在产生大量的数据,这些数据是没有标记的,缺少标记信息,人工标记既费时又费力。因此,为了解决数据标记不足的问题,半监督学习和迁移学习应运而生,并逐渐成为机器学习研究领域的重要内容。半监督学习同时利用有标记数据和无标记数据训练模型,然后对目标数据进行预测。迁移学习则首先利用有标记的源域数据学习模型,然后再使用这个学习的模型对无标记的目标域数据进行预测。虽然目前存在许多对数据进行分类的方法,但仍存在以下不足:1)半监督学习中,流形正则化(Manifold regularization,MR)是一个经典的框架,但是MR的光滑性约束是对全部样本对实现的,即将每一对样本视为一个对象,没有考虑单个样本的光滑性。2)迁移学习中,域对抗神经网络(Domain adversarial neural networks,DANN)是解决无监督分类学习问题的典型算法,该方法在对齐源域和目标域的整体数据分布过程中容易产生负迁移。此外,仅利用源域有标记样本训练得到的一个分类器来预测目标数据,其结果可能并不可靠。因此,为了解决上述问题,本文的研究主要包括以下两个内容:首先,为了降低成对样本可能产生错误的同时仍然保留样本的逐点光滑性,不考虑成对样本而考虑到每一个样本的光滑性,提出了一种解决半监督图像分类问题的新方法,即逐点流形正则化(Pointwise Manifold Regularization,PW_MR)方法。该方法不仅考虑了每一个样本的光滑性特性,还引入了局部密度对每一个样本的重要性进行衡量,从而促进MR框架的预测准确性。其次,为了充分利用有标签样本的知识,提出了一种双向判别域适应网络(Bidirectional Discriminant Domain Adaptive Network,BDDAN)。在该方法中,使用域对抗神经网络DANN进行特征对齐减小域间隔,通过图像变换进一步学习域不变特征。在这个过程中,同时学习两个分类器,通过两个分类器的概率输出引入一致性损失函数,从而提高预测的可靠性。另外,利用有标签样本计算各个类别之间的相似关系,使预测为同一类别的样本具有相似的软标签,从而帮助提升分类性能。最后,在数据集上进行实验,实验结果表明提出的PW_MR和BDDAN方法都分别能够改进分类性能,提高预测的准确性。