关键词:
零样本学习
图像分类
语义信息
图像特征提取
注意力机制
摘要:
在人工智能的图像识别领域,识别分类依旧是各类任务的关键所在,准确地判定物体的类别,是各类应用场景下的基本需求。随着近年来深度学习的不断发展,传统的深度学习图像识别方法能够在各个领域取得超过人类的识别正确率和速度,例如人脸识别、医疗检测和工业缺陷识别等。但是,要想取得预设的识别效果,需要模型具有非常优秀的拟合能力,这就需要大规模的标注数据样本,并且保证训练集和测试集的样本类别一致。但是在实际应用当中,一方面受限于某些类别的图像样本数据难以获取;另一方面,新增未知类别的样本使得模型需要重新训练以实现对新类型的识别。因此利用先验知识,实现通过已知类别训练到识别未知类别的零样本学习方法,具有实际研究意义。目前零样本学习的方法主要是以属性特征或者语义特征为类别先验特征,搭建图像特征和先验类别特征之间的映射,完成已知类别训练到未知类别识别的领域迁移。然而,在一般零样本图像分类模型中,图像特征提取模块缺乏对用于匹配先验类别属性的关键和非关键视觉特征的筛选机制,且单一属性特征或者单一语义特征的描述信息不足,导致了图像特征和语义特征的匹配困难,由此影响零样本学习模型的准确性。为此,本文提出了一种系统的零样本学习方法,在原有搭建图像特征和先验类别特征的映射模型基础上,主要提出两点改进:一是基于注意力机制的图像特征提取网络,通过改进注意力机制的卷积神经网络搭建图像特征抽取模块,在VGG-19模型和Res Net-34模型的基础上,通过空间注意力聚焦的方式进行特征的组合,并对注意力特征聚焦的效果进行验证;二是基于矩阵分解的语义信息融合方法,针对性训练获取三类先验语义知识word2vec、Glo Ve和fast Text,并通过对属性特征进行矩阵分解,将属性分解向量和语义特征向量进行维度匹配,进而通过融合两类向量达成信息交互,并对其效果进行验证。在零样本图像分类任务中,以对未知类别的识别正确率为标准。实验结果表明,对比各类图像特征提取网络,其中基于注意力机制的Res Net-34图像特征提取模型Res Net-A效果最好;对比属性特征和各类语义特征融合生成的融合语义特征,其中经过矩阵分解的属性特征和Glo Ve语义特征的融合效果最优。