关键词:
小样本学习
图像分类
稠密预测
脑启发人工智能
视觉感知机制
特征正则化
度量学习
模型微调
摘要:
随着硬件技术的不断发展和大规模数据集的涌现,深度学习技术取得了巨大的突破,并在计算机视觉领域取得了显著的成果。目前,基于深度学习的视觉感知模型依赖于大规模图像数据集进行训练。然而,收集大规模的有标注数据集往往昂贵且耗时,这增加了部署深度学习模型的成本。此外,在某些应用场景下,难以获取到大量有监督信息的图像数据,这时模型只能依靠少量样本进行学习。因此,如何使深度学习模型在给定少量样本的情况下快速学习新的视觉概念,成为当前亟待解决的问题,这一挑战被称作小样本学习。在处理小样本任务时,相较于现有的计算机视觉模型,人脑的视觉感知系统展现出了显著的优势,主要体现在其快速适应能力、稳健性和泛化能力上。然而,当前小样本学习领域的大多数工作都是从机器学习的角度出发对现有方法进行改进,忽略了人脑视觉感知机制带来的重要启发。因此,本文针对人类视觉感知机制启发的小样本学习方法展开研究,旨在缩小当前小样本视觉感知模型与人脑视觉系统的能力差距。
通过对现有的小样本学习方法进行分析,可以总结出其三个关键环节:特征学习、特征匹配以及模型微调。本文围绕这三个关键环节,对现有方法存在的不足进行分析:1)特征学习环节缺乏视觉目标通用的特征分布先验知识;2)特征匹配环节缺乏物体组件关系的对齐能力;3)模型微调环节缺乏对模型参数蕴含的任务相关知识进行挖掘的能力;4)模型微调环节缺乏多层次视觉知识的挖掘能力。为了应对上述挑战,本文从以下几个方面展开研究:
(1)针对特征学习环节缺乏视觉目标通用的特征分布先验知识的问题,本文借鉴人脑腹侧通路神经元经验无关性视觉表征机制,提出了一种新型的特征正则化方法,通过对腹侧通路神经元的调谐特性进行计算建模,并基于这些计算模型对小样本模型中间层的特征进行正则化,使得这些中间层具有与腹侧通路神经元类似的响应特性,从而引入视觉目标通用的特征分布先验知识,提升模型特征的泛化能力。本文所提方法是与模型无关的,可以应用于不同主干网络、不同分类层、不同学习范式的小样本模型中。在小样本图像分类以及跨域小样本图像分类任务上的广泛实验充分证明了所提方法的有效性和通用性。
(2)针对特征匹配环节缺乏物体组件关系对齐能力的问题,本文借鉴下颞叶皮层神经元多层次物体结构编码机制,提出了一种物体组件关系解耦模块,对于不同位置的局部物体组件,通过显式编码其与周边物体组件的二元关系、三元关系等不同层级的多元关系,将耦合在图像特征中的各层级物体组件关系进行解耦。基于不同层级物体组件关系进行匹配,能够赋予模型对齐物体组件关系的能力,从而增强特征匹配环节的稳健性。本文所提方法适用于所有基于局部特征的小样本度量学习方法,在不同主干网络、不同稠密相似度计算方法的基于局部特征的小样本度量学习方法上应用物体组件关系解耦模块,均能带来一定程度的性能提升,从而验证了所提方法的有效性。
(3)针对模型微调环节如何对模型参数蕴含的任务相关知识进行挖掘的问题,本文借鉴人脑视觉系统神经路径选择性激活机制,提出了一种新型的小样本微调方法,通过微调混合专家网络的路由器,使模型选择不同的计算路径来实现对测试任务的迁移,而不是采用修改权重的方式实现模型迁移。该方法能够避免破坏训练阶段模型参数获取的知识,还能针对不同测试任务选择关键的模型参数,有效挖掘模型参数蕴含的任务相关知识。基于路由器微调方法,本文提出了一种面向稠密预测的通用小样本学习方法,并在一个包含多种稠密预测任务的具有挑战性的数据集上进行了实验。结果显示,基于路由器微调的方法显著超越了传统的基于模型权重微调的方法,从而验证了本文所提微调方法的有效性。
(4)针对模型微调环节如何充分挖掘多层次视觉知识的问题,本文借鉴人脑视皮层功能分化及跨区连接机制,提出了一种基于多层次视觉知识交互的小样本微调方法。该方法分为两个阶段,首先借助若干个基础任务训练小样本模型的多组任务特定参数,不同的基础任务特定参数能够引导模型提取适用于不同视觉任务的特征,从而实现多层次视觉知识的有效提取。然后在测试阶段,通过微调一种知识交互模块对不同层次的视觉知识进行充分地交互与整合,从而使模型充分利用多层次视觉知识实现高效迁移。在通用小样本学习任务上的实验结果表明,本文提出的基于多层次视觉知识交互的微调方法能够显著提升预训练模型在下游小样本视觉任务的迁移效果。
基于上述思路,本文研究了人类视觉感知机制启发的小样本学习方法。围绕特征学习、特征匹配和模型微调这三个关键环节,本文对现有小样本学习方法的不足进行分析,并借鉴人脑视觉感知机制提出相应的改进方案,从而提升了小样本学习方法的泛化性、稳健性和对新任务的快速适应能力,进一步缩小了小样本视觉感知模型与人脑视觉系统的能力差距,推动了具有强泛化性、高鲁棒性、高适应性的小样本学习方法的发展。