关键词:
语音情感识别
双子空间迁移学习
最大均值差异
图嵌入
摘要:
随着人工智能的快速发展,语音作为人类传达情感的重要方式之一,占据着越来越重要的位置。传统的语音情感识别技术都基于一个共同的假设:训练数据和测试数据都来源于同一个数据库,即训练集和测试集具有同样的特征空间分布。然而,由于不同语料库的情感获取方法、情感种类以及录音环境有所不同,此时训练集和测试集存在分布差异,从而导致基于同分布假设的传统语音情感识别方法不能够很好地解决跨库识别问题。而迁移学习的引入己被证明可以显著减少不同域之间特征分布的差异性,因此,本文提出了双子空间迁移学习框架(Dual-Subspace Transfer Learning,DSTL)以提高跨语料库的情感识别性能。针对特征映射迁移学习方法忽略特有信息的缺陷,本文工作提出了融合共性与特性的双子空间迁移学习框架,对仅利用共性的特征映射迁移学习进行改进,以提高情感识别性能。本文具体研究内容如下:(1)为进行跨库语音情感识别的性能比较,本文工作建立了汉语情感语音数据库(Mandarin Emotional Speech Dataset Portrayed,MES-P)。该数据库是由说话人根据离散情感标签录制完成,随后由标注者通过听觉感知及主观判断将每个语音样本的情感定量转化到效价度/唤醒度(Valence/Arousal,VA)空间。因此,该数据库不仅为本文的跨库语音情感识别研究提供了重要的数据基础,还可用于离散情感到维度空间转换的后续研究。(2)研究了全局与局部分布差异约束作为正则项的特征映射迁移学习方法。本文工作将基于类间距离和类内距离特征分组的改进主成分分析方法作为基础方法,利用全局相关的最大均值差异和局部相关的图嵌入方法分别作为正则项对其进行分布差异约束,得到三种不同的特征映射迁移学习方法。实验结果表明,与传统机器学习方法相比,特征映射迁移学习方法的召回率提升了 8.11%。并且全局与局部分布差异算法在平衡库与不平衡库方案下展现出不同的识别性能。(3)针对主流特征映射迁移学习方法仅利用共性,而忽略特性的缺陷,提出融合共性与特性的双子空间迁移学习框架,双子空间指的是:a)公共子空间:利用特征映射迁移学习方法学习公共子空间,在该子空间中通过减少源域和目标域的分布差异以保留域之间的共有信息;b)特性子空间:针对特征映射迁移学习方法未利用特有信息的不足之处,提出了目标化源域特有信息(Source-specific Mapping to Target subspace,SMT)方法,能够在特性子空间中保留源域和目标域的特有信息。因此,该双子空间框架通过引入特有信息,能够对仅利用共性的特征映射迁移学习方法进行改进。结果表明,双子空间迁移学习方法的平均召回率较其基线方法得到3.05%的提升,并且召回率高达61.67%。