关键词:
带标签噪声学习
深度神经网络
标签修复
抗标签噪声损失函数
特征表征
摘要:
深度神经网络(Deep Neural Network,DNN)近年来在多个应用领域中取得优秀的效果。然而,DNN的成功应用往往依赖于大量具有正确标签的数据,而在许多实际场景下DNN的训练数据集都带有噪声标签(即标注错误的标签),因此DNN的泛化性能将受到影响。为解决这一问题,带噪声标签学习(Learning with Noisy Labels,LNL)方法得到了广泛的研究,该类方法旨在提高经过带有标签噪声的数据集训练的DNN的泛化性能。然而,DNN的实际应用场景往往较为复杂,因此常见的LNL方法仍然存在着一些不足。因此,本文深入研究了抗噪声标签损失函数的设计,分析了噪声数据(noisy sample)与困难干净数据(hard clean sample)的区别,改进了现有LNL方法所利用的语义特征,研究了现有LNL方法面对实例依赖标签噪声(instance-dependent label noise)时的不足,并相应地提出了解决方法。具体而言,本文的主要研究工作如下:
1、在DNN的实际应用场景中,常会同时遭遇噪声标签问题与类别不平衡问题,而在目前的主流的噪声标签鲁棒损失函数并没有很好地考虑到类别不平衡问题对现有噪声鲁棒损失函数的影响。因此,本文提出一种构建抗噪声与负样本(即不平衡数据集中所属类别占据主要数量的数据)影响的损失函数(Noisy Label and Negative Sample Robust Loss function,NLNSRL)的LNL方法。具体而言,本文量化了噪声标签问题及类别不平衡问题对于DNN性能的影响,并通过线性规划算法构建了可同时应对这两种问题影响的损失函数。本文以远程监督关系抽取以及命名实体识别这类经常同时存在噪声标签问题与类别不平衡问题的工程任务为例,验证构建NLNSRL的LNL方法的有效性,实验结果表明,该方法可以有效改善DNN在实际场景下的泛化性能。
2、常见LNL方法常将学习难度高(即损失函数值较大)的数据视为噪声数据,然而,来自困难干净数据的少见特征模式也可导致高学习难度,因此困难干净数据易被常见LNL方法误判为噪声数据。为应对这一不足,本文提出基于数据学习风险的带噪声标签学习(Samples’Learning Risk based Learning with Noisy Labels,SLRLNL)方法,该方法利用代表了数据对DNN准确性影响的数据学习风险来区分噪声数据与困难干净数据,因此相比现有LNL方法,SLRLNL能够更好地区分困难干净数据和噪声数据。此外,为了改善对困难干净数据的学习,本文进一步提出了基于重新标注的标签增强(Relabeling based Label Augmentation,RLA)方法,其鼓励DNN偶尔学习困难干净数据的其他有可能的标签,从而增强对该类数据的学习。本文在带噪声的常见图像分类数据集与关系抽取数据集上验证了SLRLNL方法的有效性。
3、现有LNL方法常依赖DNN提取的语义特征来检测和减弱标签噪声影响。然而,这些提取的特征可能在不同数据环境中与标签关联性不稳定,因此可能影响LNL方法的效果。为了应对这个问题,本文首次在LNL方法中提出基于不变性特征的标签修复(Invariant Feature based Label Correction,IFLC)方法,该方法增强了对与标签具有稳定关联性的不变性特征的学习,并增强了对所捕获特征的利用效果。具体而言,本文首先提出标签扰动(Label Disturbing,LD)方法来鼓励DNN在不同环境中获得稳定的性能,从而鼓励学习不变性特征。进一步地,本文提出表征去相关(Representation Decorrelation,RD)方法来加强了表征向量每个维度间的线性独立性,从而保证DNN能够准确利用学习到的特征。然后,本文使用鲁棒线性回归方法来利用特征表征进行标签修复。本文在带噪声的四个常见图像分类数据集上评估了IFLC方法的有效性,并与最先进(state-of-the-art,SOTA)的LNL方法进行了比较。实验结果表明,IFLC方法与现有的SOTA方法相比,性能相当甚至更好。
4、现有LNL主要基于DNN的记忆效应(Memorization Effect)来检测并削弱噪声数据的影响,该效应认为DNN学习噪声数据的速率要慢于干净数据,然而这一效应在带有实例依赖标签噪声的数据集中会失效,从而影响标签修复方法在实际应用中的效果。为应对这一问题,本文提出一种基于可区分的特征表征的标签修复(Separable Feature Representation based Label Correction,SFRLC)方法来更有效地检测并修复实例依赖标签噪声。SFRLC方法以DNN每层输出的联合向量作为特