关键词:
多标记学习
偏多标记学习
三支决策
标记相关性
特征选择
摘要:
多标记学习是一种机器学习范式,它处理的分类任务中允许每个实例同时拥有多个标记。传统的多标记学习方法通常假设每个训练示例的所有相关标记均已经被准确地标注了。但是,在实际应用中,由于潜在的不可靠标注者存在,这一假设往往难以成立。相反,标注者通常只能为每个示例提供一组候选标记,其中既包含相关的标记,也包含不相关的标记。这种包含噪声标记数据的多标记学习问题被称为偏多标记学习。与需要精准标注的多标记学习相比,偏多标记学习更贴近实际应用的场景。如何利用这种含有噪声标记的数据建立有效的学习模型,是当前该领域的一个重要议题。针对这一问题,本文对偏多标记学习进行了深入的研究,主要做了以下两项创新性的工作:
1.提出基于非消岐策略的偏多标记学习方法(PML-TT)。为了缓解在消岐过程中由噪声标记引起的误差积累问题,本方法通过借助三元训练(Tri-training)框架,利用了分类器之间的相互协作和迭代,以修正噪声标记并提高学习模型的性能。此外,本方法采用了三支决策来解决基分类器的冲突问题,从而获得更多更有用的训练样本。另外,本方法还利用了非候选标记的精确监督信息,以使基分类器的预测更加准确。最后,为了验证所提出的方法的有效性,本方法在14个合成和真实的偏多标记数据集上,与六个具有代表性的偏多标记学习方法进行了对比实验。基于六个被广泛采用的评价指标,实验结果表明,所提出的方法在偏多标记数据的学习上达到了较好的效果。
2.提出基于消岐策略的偏多标记学习方法(PML-GR)。为了避免学习模型学得错误的标记,本方法提出一个新的建模视角。具体地,在第一阶段,我们构建了一个粒球,基于粒球计算了核心集,然后设计了一个特征重要性评价函数,给核心集中的每个特征分配权重,从而得到了偏多标记学习器的特征重要性的排序;在第二阶段,通过选定的特征,构建了一个基于融合策略的目标函数,通过考虑全局样本相似性和局部标记相关性的联合效应,计算了标记置信度。最后,通过将多输出回归器拟合到标记置信度上,学习到一个多标记预测模型。实验结果表明,所提出的方法通过有效的特征选择和相关性融合优化,实现了有竞争力的泛化性能,可以更加关注具有区分性的特征,并在训练过程中缓解噪声标记的影响。