关键词:
微表情识别
深度学习
双流卷积神经网络
数据增强
注意力机制
摘要:
与普通的面部表情不同,微表情是一种自发且无意识的面部运动,它无法被刻意抑制和隐藏,能够展现人内心的真实情感。现有公开微表情数据库的样本量很少,这会导致深度学习方法应用在微表情识别任务时容易出现过拟合问题,此外由于微表情具有持续时间短、脸部肌肉变化幅度小的特性,现有的微表情识别方法很难有效地提取到微表情的鉴别性特征,从而导致识别准确率不高。针对上述问题,本文研究了用于微表情识别的鉴别性特征学习方法,主要研究工作如下:(1)为了降低微表情分类任务的计算量以及解决微表情数据库样本不足的问题,提出了一种基于双流卷积神经网络的微表情识别方法。该方法首先对微表情样本采用不同放大因子的欧拉视频放大算法进行预处理,一方面扩充了样本量,另一方面放大了不同类别微表情之间的特征差异,然后构建了双流卷积神经网络模型,接着将微表情视频序列的峰值帧图像和光流图(计算起始帧和峰值帧之间的光流信息得出)分别输入到模型的空间流支路和时间流支路对其进行训练,最后利用训练好的模型进行微表情识别。该方法兼顾了微表情空间上的外观信息和时间上的光流信息,能够使模型有效地学习微表情的时空特征,并且只使用了微表情视频序列的起始帧和峰值帧,降低了微表情分类任务的计算量。实验结果表明,该微表情识别方法在微表情数据库SMIC和CASME II上的识别准确率分别达到67.07%和72.72%。(2)为了解决微表情识别模型在训练阶段无法充分全面地学习到脸部各个区域的鉴别性特征问题,提出了一种带有辅助类别标签的微表情样本合成方法。针对某个微表情峰值帧样本,选取同一个实验个体但不同于其类别的另一个峰值帧图像,裁剪得到眼睛、嘴巴区域的图像块,并用裁剪得到的图像块替换原来峰值帧图像的对应区域得到合成图像,其对应的合成光流图也以同样的方式得到。利用这种方式合成的样本带有两个类别不同的标签,一个是眼睛、嘴巴区域所属的辅助类别标签,另一个是非眼睛、嘴巴区域原有的类别标签,将这种带有辅助类别标签的微表情合成样本输入到模型中进行多标签训练,训练时利用定义的损失函数能促进模型不仅仅只关注脸部变化相交明显的特定区域(嘴巴、眼睛区域),还关注一些脸部变化不明显的区域(非嘴巴、眼睛区域),从而使其充分全面地学习到脸部各个区域的鉴别性特征进而提升模型的识别准确率。实验结果表明使用该方法后,在微表情数据库SMIC和CASME II上准确率分别提升了3.05%和3.49%。(3)为了使微表情识别模型更加关注脸部鉴别性特征强的区域以及解决双流卷积神经网络两个支路提取特征相对独立的问题,提出了类激活图注意力机制。增加了类激活图注意力机制后的双流卷积神经网络,其空间流支路和时间流支路不再相互独立,空间流支路产生类激活图,利用此激活图对时间流支路的输入进行注意力增强,空间流支路所产生的类激活图表明峰值帧图像中哪些区域的微表情特征是鉴别性强的,为了让模型在光流图上也能关注这些鉴别性特征强的区域,利用类激活图对时间流支路的输入进行注意力增强。类激活图是空间流支路产生的先验知识,时间流支路有了先验知识的信息补充增强了模型对时空鉴别性特征的学习能力,从而进一步提升微表情识别准确率。实验表明利用带有辅助类别标签的微表情合成样本训练该网络,再用训练好的模型进行微表情识别,最终在微表情数据库SMIC和CASME II上准确率分别达到71.95%和78.63%。