关键词:
图像识别
机器学习
深度学习
不平衡数据分类
增量学习
摘要:
图像识别是计算机视觉领域最为基础的任务。基于深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的图像识别方法是目前的主流方法,取得了远超传统方法的性能。大多数基于DCNN的图像识别方法依赖于静态环境,并且需要规模庞大且类别分布均衡的训练数据。但在实际场景中,数据分布往往不平衡,数据规模在持续增长,新类别不断涌现,给图像识别带来了巨大挑战。在面对数据不平衡时,若采用通用的算法进行训练,DCNN在预测时将偏向于多数类,并且在少数类上易于发生过拟合,性能欠佳。数据不平衡通常伴随着数据复杂性,即数据通常具有类间相似度高,类内差异大的特点,进一步影响了模型的性能。面对数据增长问题时,因新知识的学习和新旧类别的数据不平衡,增量学习模型在旧数据上的性能将会下降,即灾难性遗忘。针对上述挑战,本文基于深度卷积神经网络强大的表示能力,从对特征学习进行校正与约束的角度开展了研究,并设计了相应的图像识别方法。本文的主要工作如下:(1)为减少数据不平衡及其复杂性的影响,设计了一种基于协方差判别损失的图像识别方法。该方法利用考虑了一阶和二阶距离的协方差判别损失,给难样本的特征学习提供了更多约束,实现了少数类和多数类的深度特征的有效分离。本文给出了相应的难样本挖掘算法,进而可筛选相应的错分样本或具有不合适特征表示的样本。通过在ISIC2018皮肤损伤数据集和不平衡FGVC-Aircrafts数据集上的实验,证实了本文设计的方法能有效校正少数类的深度特征和处理不平衡数据分类问题。(2)从考虑数据内部结构的角度出发,本文设计了一种基于聚类度量损失的图像识别方法,以更好地处理数据不平衡及其复杂性。该方法首先采用k-means方法挖掘聚类结构,然后利用交叉熵损失和聚类度量损失进行联合优化,进而增强了特征学习和分类能力。所设计的聚类度量损失通过对聚类距离、类内距离与类间距离的关系进行约束,实现深度特征的有效校正,保证了类别之间的间隔。本文在不平衡Stanford Dogs数据集和不平衡Describable Textures数据集上进行了对比实验,表明本文设计的方法一致优于对比方法;与此同时,通过消融实验证实了所设计的损失函数每一项的有效性。(3)针对新知识的学习和新旧类别的数据不平衡导致的灾难性遗忘,本文将基于模型的方法嵌入到基于存储的方法,提出一种基于样例特征学习的多类别增量学习方法。首先,本文利用基于模型的Memory Aware Synapses(MAS)模块计算参数重要度,并以此来减轻权重漂移,并保持旧数据特征的可分性。与以往增量学习方法不同的是,本文对图像尺寸进行预处理,利用预训练网络进行参数初始化,减少了训练次数,进一步减轻了模型变化。其次,利用Exemplar-Based Subspace Clustering模块进行样例挖掘,保证了样例的充分性和多样性。最后,在合适的条件下,本文采用非参数的多中心最近邻类均值分类器替代MAS模块的全连接层,来降低训练次数,并减轻新旧类别的数据不平衡的影响。本文通过进行消融实验和对比实验,表明基于样例特征学习的多类别增量学习方法方法表现良好,并显著优于对比方法。(4)提出一种基于双分支深度最近邻类均值分类器的多类别增量学习方法。在样例特征学习的方法中,特征提取器和分类器是分别获得的,二者的匹配度不高。为此,本文提出了一种基于联合训练的方法——双分支深度最近邻类均值分类器,以更好地降低灾难性遗忘的影响。首先,该方法采用集成学习的方式对原始分支和再平衡分支进行训练,降低了新旧类别的数据不平衡的影响。其次,利用激活迁移损失函数来减少特征层面的灾难性遗忘,进而保持特征对于旧类别数据的可分性。最后,采用具有天然优势的最近邻类均值分类器进行预测,并实现了特征提取模块和分类器的联合训练,提升了两者的匹配度。对比实验表明双分支深度最近邻类均值分类器在新旧类别上具有良好的分类性能,而消融实验则验证了双分支结构、联合训练、激活迁移损失等模块的重要性和必要性。