关键词:
标签噪声学习
分类学习
自适应
相对密度
完全随机森林
摘要:
随着社会发展进入数字经济时代,数据作为生产要素的经济地位日益凸显。如何从海量数据中提炼出有价值的信息,成为了全面深化改革的目标和方向。然而,由于人工标注速度难以匹配数据增长速度,与海量数据相伴而生的标签噪声限制了数据信息的精准提炼,尤其是对有监督的分类学习任务影响巨大。因此,如何缓解标签噪声的负面影响,提升分类算法鲁棒性,成为了值得深入探索的研究课题。现有的标签噪声学习方法在二分类、多分类及不平衡分类问题中,存在非对称噪声导致的过度过滤问题,缺乏通用的多分类标签噪声学习框架和对标签噪声鲁棒的不平衡采样方法,难以应对复杂分类场景中的标签噪声。本文在现有的标签噪声学习方法基础上,围绕非对称的二分类、多分类及不平衡分类数据中的标签噪声的不同特征进行研究,分别提出了面向二分类的自适应标签噪声学习算法、面向多分类的通用标签噪声学习算法以及面向不平衡分类的鲁棒标签噪声学习算法,以提升不同分类场景下标签噪声学习方法的有效性和普适性。本文主要工作内容如下:(1)研究二分类场景中的非对称标签噪声,提出一种自适应的标签噪声学习算法,解决了在非对称噪声下阈值失效导致的训练样本过度过滤问题,缓解了噪声非对称的二分类场景下的分类模型欠拟合问题。本文采用一个相对柔和的假设取代原始相对密度中的硬假设,根据样本局部分布特征的差异性,将全局的阈值变量转为依赖于类别的局部变量,自适应地区分标签噪声样本和非噪声样本,消除标签噪声学习方法对预设阈值的依赖。此外,为进一步扩展算法的自适应性,引入了幂函数调整同类样本的相对密度间距,以便更准确、更全面地识别标签噪声。实验表明,在真实数据集上,本文所提算法能够在标签噪声识全率和错误识别率之间取得最佳权衡,以最小的代价最大程度上保留数据样本的原始分布特征。算法能够有效提升二分类器的泛化能力,在非对称噪声下的抗干扰能力尤为显著。(2)研究多分类场景中的标签噪声,定义多分类标签噪声,提出一种学习多分类标签噪声的通用框架。此外,以完全随机森林算法和相对密度算法为例,应用所提出的学习框架对其进行多分类实例化扩展,并提出两种噪声强度阈值的优化方式,即新型投票交叉验证方法和自适应方法,分别从可靠性角度和时效性角度实现对噪声强度阈值的优化提升,进一步扩展多分类标签噪声学习方法的通用性。实验结果表明,在人工合成数据集和真实数据集上,本文所提出的多分类标签噪声学习框架能够有效缓解多分类场景下的标签噪声带来的分类器泛化能力下降问题,还能够以松散耦合的方式与任意不平衡采样算法结合,实现对不平衡的多分类数据中的标签噪声的有效识别,改善数据质量,提升多分类器的分类性能和对标签噪声的鲁棒性。(3)研究不平衡分类场景中的标签噪声,设计一种面向不平衡分类的鲁棒标签噪声学习算法,同时解决多分类、不平衡、非对称的标签噪声问题。首先,提出一种鲁棒的合成少数类的上采样算法,实现噪声样本的自动识别及非噪声样本的自动分区采样,通过提升采样算法对含有标签噪声的不平衡数据的鲁棒性,改善不平衡分类算法的泛化能力。然后,结合依据通用的多分类标签噪声学习框架扩展后的多分类自适应标签噪声学习算法,过滤上采样后多分类数据中的标签噪声,通过强化分类边界和清理噪声数据,共同对抗多分类、不平衡问题中的非对称标签噪声对寻找最优分类边界的干扰。实验结果表明,本文所提算法不仅能够在单独应用时实现对数据质量的有效提升,对分类性能的有效改善;其组合算法能够形成优势互补,进一步提升了单一算法在复杂分类场景下对标签噪声的鲁棒性。