关键词:
弱监督学习
增量学习
半监督学习
零样本学习
迁移学习
任意样本学习
摘要:
随着现代社会的数据量与信息量急剧增长,以机器学习为代表的系列人工智能技术取得了重要突破,特别是有监督学习模型,其泛化性能在诸多实验室场景下已经超过了人类。然而,训练高效的有监督学习模型通常需要为每个目标类别搜集成百上千的带有人工标注的训练样本。在实践过程中,由于真实数据类别分布的长尾效应与高昂的人工标注成本,想要为模型建立理想的有监督训练数据集往往不能如愿,会呈现出各样的零样本、少样本场景,比如某些类别样本的缺失或者标签的缺失。针对这些普遍存在的信息缺失问题,机器学习领域相继提出了一系列对标注数据集弱依赖的解决范式,称为弱监督学习,其深层次原理在于充分挖掘现有数据集特性,使得智能模型在信息缺失情形下的建立更加符合人类学习机制,从而逐步具备真正意义上的机器智能。也因此,对于零/少样本场景下的弱监督学习研究正成为多个建模领域的热点问题。基于上述背景,本文以弱监督学习为核心脉络,从基本的少样本场景与少标签场景开始,推演到零样本场景,再到最终的任意样本场景,逐步揭示并解决信息缺失下数据驱动模型建立的若干关键问题,从而拓展了数据驱动模型在各类弱监督场景下的应用。为了展示少样本场景、少标签场景、零样本场景和任意样本场景等弱监督学习问题的现实存在性与实践价值,我们以手写数字识别、虚拟传感测量、工业故障诊断和户外场景检测四种典型应用为代表,对所提出的方法加以验证。同时,我们基于Python语言,设计并开源了针对零/少样本场景下弱监督学习的生成模型库,从而使得本文设计的生成模型以及一系列用于零样本、少样本问题的典型生成模型可以以一行代码的方式进行极简实现。本文的主要贡献分为五点,总结如下:1)针对弱监督学习中的少样本场景,设计了一种具备三重增量学习能力的宽网梯度提升系统模型,它通过模拟卷积神经网络的深层结构,将多个宽度网络以梯度提升机的加性模型结合得到。新模型解决了在少样本场景下已建立的模型面临学习新特征、新样本、新类别三种增量需求时需要不断重新训练的问题。以手写数字识别任务作为模型验证,实际可减少约40%~60%的建模时间。2)针对弱监督学习中的少标签场景,设计了一种简单但有效的半监督对抗平滑正则损失,它评估了模型对每一个样本点预测的平滑程度,通过最小化模型对噪声与干净样本的预测散度,解决了在少标签场景下大量利用无标签样本建模的鲁棒性问题。同时,我们也设计了三重回归半监督学习框架,通过伪标签的形式进一步利用无标签样本,构造出对抗平滑三重回归模型,以虚拟传感测量任务作为模型验证,实际可降低约7%~10%的预测误差与25%的噪声误差。3)针对弱监督学习中的零样本场景,设计了一种基于语义描述属性迁移的零样本模型,该模型在数据驱动的框架下尝试使用人工定义的描述替代样本来判断类别,解决了在样本与标签同时缺失的情况下某些类别难以建模的问题。以工业故障诊断任务为例,新模型通过从已有故障的预学习与知识迁移,可以直接基于辨识的故障描述对目标故障进行在线的诊断而不再需要任何基于数据的模型训练,达到了使用200~400样本所建立模型的准确率。4)针对弱监督学习中包含零样本、少样本等问题的任意样本场景,设计了一种具备生成器迁移误差消除能力的语义精炼对抗生成网络,该模型利用多头语义表示技巧与层次语义对齐技巧精炼语义描述,解决了特征生成器从已知类别向未知类别迁移时存在的迁移误差问题,达到了生成器跨类别特征生成的无偏条件。以户外场景检测任务为例,相比于传统的生成模型,新模型在零样本测试中提升了约5%~8%的准确率,在少样本测试中提升了约5%~10%的准确率。5)针对弱监督学习,设计并开源了基于Python语言的生成模型代码仓库,提供了相应的模型、特征、参数和实验设定。文中所设计的生成模型以及一系列用于零样本、少样本问题的典型生成模型都可以以一行代码的方式进行极简实现。同时,我们基于户外场景检测任务,通过简单修改模型使用的视觉与语义特征,极大的提升了复现模型的基准性能,约3%~15%,揭示了视觉与语义嵌入特征对生成模型与弱监督学习建模的重要性。