关键词:
微表情识别
深度学习
时空特征
集成学习
特征融合
摘要:
面部微表情(Micro-Expression,ME)是一种非言语性的线索,用于揭示个体隐藏的情绪和意图。微表情表现为面部肌肉的短暂、快速而细微的运动,是情感和意图的非语言性传达方式。在情感信息处理过程中,微表情的识别至关重要,它有助于在欺骗行为中洞悉个体的心理状态。微表情识别(Micro-Expression Recognition,MER)在多个领域具有广泛的应用价值,包括心理治疗、法医学、国土安全、商务谈判、求职面试以及教育等。然而,由于微表情的持续时间短暂、面部肌肉运动的细微性,以及其发生频率的随机性,使得其识别成为一项极具挑战性的任务。此外,微表情强度轻微、仅局部区域变化、样本数量匮乏和公开数据集的不一致性等因素,也限制了微表情识别准确率的提升。随着计算机视觉技术的不断发展,自动微表情识别逐渐成为研究的热点。早期的微表情识别工作主要依赖于机器学习算法,然而,由于自发微表情序列的复杂性、公开数据集的稀缺性以及复合数据集中的领域漂移等问题,提高微表情识别的准确率仍然是一个亟待解决的难题。
本论文的研究主要围绕基于深度学习的微表情识别技术展开,并在各类自发微表情数据集上进行应用研究,旨在提高微表情识别的性能,同时确保所提出的方法能够适应新构建的、具有高生态效度的复合微表情数据集。为此,本论文提出了基于计算机视觉的方法,包括单流和多流方法两种路径,利用深度学习在RGB图像和视频中识别微表情。本论文介绍了四种单流级联深度模型,利用卷积神经网络和循环神经网络架构来同时捕获空间及时空微表情特征。其中,两个模型利用了高潮帧,另外两个模型则采用了ME帧序列实现端到端的特征提取和识别。此外,本论文还提出了两种多通道模型,用于提取静态和动态的ME特征,将静态和动态纹理、光流以及深度微表情特征整合起来,通过特征融合生成稳健的特征向量。在预处理阶段在预处理阶段,该研究采用了面部几何信息,并通过创建四个面部宏观表情(MAE)复合数据集来促进迁移学习,这些复合数据集结合了表演和自然环境下的MAE数据集。最后,通过对不同复合情况下自发微表情实例的多种微表情样本类别进行验证,该研究证实了所提出模型的有效性和泛化能力。
在第一章中,本文深入探讨了论文的背景、动机和目标,同时概述了本文的主要贡献和组织结构。该章重点介绍了本文的理论依据、目标以及微表情识别的重要性,阐明了微表情识别的目标、内在挑战、相关组成部分、术语定义以及重大实践意义。此外,该章还概述了在公开可用的自发微表情数据集上,微表情识别领域所取得的显著进展。论文提出的解决方案包括系统地构建六个高效且通用的微表情识别模型,这些模型利用单流和多流通道,包括深度通道、静态和动态纹理通道以及光流通道。对于这些任务的具体描述与深入分析,将在第三至六章中详细展开。
在第二章中,本文对自发微表情数据集的相关文献进行了广泛的综述,同时探讨了各种基于手工特征提取器和机器学习技术(包括深度学习模型)的微表情识别方法。该章通过系统地梳理相关微表情识别任务的发展历程,进一步分析了这些研究对微表情识别领域的贡献程度。
在第3章中,本研究提出了一种高效的微表情识别深度学习模型,并将其命名为Demeapex Net,该模型可有效识别不平衡自发面部微表情数据峰值帧中的离散情绪状态.所设计的残差和空间微注意力块以及局部重复空间特征提取块,能有效捕捉面部肌肉因真实情感泄露而产生的细微空间变化特征。模型采用了两阶段的迁移学习、在线和离线增强等策略缓解过拟合,从而高效识别微表情。所提出方法在多个数据集上均表现出良好的有效性和泛化性。
在第一项工作的基础上,第4章提出了另一种MER方法,用于从ME视频序列中识别ME。本研究的重点是开发和评估一种高效的深度模型,该模型以三维卷积残差神经网络为骨干,用于时空特征提取,然后利用具有2-1-2大小卷积自动编码器模型的LSTM微调空间特征之间的时间相关性,并对其进行去噪处理,从而识别自发ME视频中的微表情。所提出的方法在五个微表达基准数据集上进行了全面测试,其泛化能力和准确性得到了显著提高。
在第5章,即本论文的下一阶段,研究集中于MER,提出了两个有效、轻量级和高度通用的模型:单通道DLRRF-MER和多通道DLH-3C-FUSION融合模型。DLRRFMER基于单个深度密集通道CNN,DLH-3CH-FUSION通过三个通道融合ME峰值帧的纹理和深度高级特征,随后使用集成分类器RF进行分类。两种模型均采用深度密集卷积模型和基于纹理的特征描述符,即LBP和HOG,捕捉高潮帧并实现微表情的识别。模型在所构建的复合微表情数据集MEComp CASAM和MAEComp CMORS上进行了评估,表现出较高的泛化能力。
最后,在第6章中,本论文的研究重点是开发和评估两个高效模型,即DITRAG