关键词:
语音情感识别
特征学习
分布一致性
半监督学习
摘要:
语音情感识别在人机交互领域具有广泛的应用场景,例如呼叫中心、移动服务等。在实际应用中,语音情感的复杂性,不仅使得需要采用高维的特征来对每个状态进行刻画,而且也令数据标注的代价高昂且费时。因此,学习具有判别性的低维语音情感特征表示,就成为语音情感识别研究的关注焦点之一。半监督语音情感特征学习作为一种主流的方法,其大体可分为两类:一是对单一来源的数据,通过利用分布一致的大量无标注数据与少量标注数据进行半监督学习。二是对多个来源的数据,通过利用无标注数据以及与之分布不一致的标注数据进行半监督学习。然而,这些方法在特征表示分布一致性的学习方面缺少深入研究,导致所学特征的判别能力不足。基于以上分析,本文围绕数据来源及分布是否一致的情况来研究半监督语音情感特征学习方法。通过子空间学习的方式,减少无关因素对语音情感特征分布一致性的影响,从而改善特征表示的判别能力。本文主要研究内容与创新工作如下:(1)针对单一数据源分布一致时的情况,试图通过将标注数据从原始特征空间有监督地投影到其稀疏子空间中,来寻找与标签信息最相关的语音情感特征表示。同时,采用既能根据不同数据分布进行灵活调整,又能对噪声和异常数据鲁棒的度量方法,来挖掘数据的真实内在结构,并学习能保留该结构以及分布一致性的语音情感特征表示。进而提出基于单源数据稀疏子空间表示分布一致性的特征学习方法。此外,还提出了一种改进的优化求解算法,以抑制传统算法在迭代过程中的振荡行为。实验结果表明,所提出的方法能够有效提升语音情感识别系统在单源数据上的性能。(2)针对多数据源分布不一致但其标签空间一致时的情况,试图借助半监督非负矩阵分解方法来为多源数据学习一个潜在的公共低秩子空间,并将标签信息整合到其对应的子空间表示中。同时,利用最大平均差异准则和局部结构保留正则,来约束多源数据公共子空间表示的边缘分布一致性。此外,为了进一步消除多源数据之间的分布差异,还提出基于自学习的条件分布估计方法,并借助最大平均差异准则来约束其公共子空间表示的条件分布一致性。进而提出基于多源数据公共子空间表示分布一致性的特征学习方法。实验结果表明,所提出的方法能够利用多源数据来改善语音情感识别的性能。(3)在基于多源数据公共子空间表示分布一致性的特征学习方法基础上,针对其无法利用标签预测与分布一致性学习之间相互促进关系的问题,试图借助标签传递的方法,将二者整合到联合学习模型中,以更好地消除多源数据之间的联合分布差异。同时,为了更好地学习具有情感判别性的特征表示,利用正交约束的半监督非负矩阵分解方法,从多源数据的公共子空间中剔除各自的个性成分,从而获得它们的共享子空间,并将标注数据的判别信息整合到该子空间中。进而提出基于多源数据共享子空间表示分布一致性的特征学习方法。实验结果表明,所提出的方法能进一步改善多源数据语音情感识别的性能。(4)针对多数据源分布及其标签空间均不一致的情况,考虑从两方面来为其学习具有联合分布一致性的子空间。首先,针对如何识别出未标注语音情感数据中已知类和未知类的问题,试图在由半监督非负矩阵分解方法得到的公共子空间中,对分类函数在未标注数据上的泛化误差进行分析,并据此得到能分离已知类和未知类数据的开集(标签空间不一致)判别子空间。同时,利用最大平均差异准则和局部结构保留正则,来约束多源数据已知类子空间表示的联合分布一致性。进而提出基于多源数据开集判别子空间表示分布一致性的特征学习方法,所学习的语音情感特征不仅具备区分已知类和未知类的能力,还能将判别信息从标注数据迁移到无标注数据上。实验结果表明,所提出的方法能够利用开集多源数据来改善语音情感识别的性能。