关键词:
声学事件识别
声学场景分类
音频语义特征学习
时序关系
联合学习
深度卷积网络
摘要:
声音信号中包含着大量关于人们生活环境的信息。随着互联网上音频数据的日益增多,以及人们对智能设备依赖程度的增加,迫切希望机器能具有更多的感知和理解声音的能力。针对声音感知与理解的研究,目前主要集中在声学事件识别和声学场景分类上。二者同属于音频分类的范畴,其所要解决的关键问题之一,就是如何学习出有效的音频语义特征表示。鉴于音频是一种时序性信号,其语义内容既取决于所包含的各个基元内容,也取决于各个基元间的时序关系。然而传统的基于帧级别的声学特征提取方法,以及流行的基于深度学习等片段级别的时频域特征学习方法,由于未明确考虑各帧级别或片段级别基元间的时序依赖关系,因而大都无法有效刻画音频样本中的完整时序信息,从而也不能有效学习出具有完整语义内容的样本级特征表示。尽管近年来有部分研究工作开始尝试使用时序建模的方法,来将基元间的长时依赖关系引入到音频语义特征学习过程之中,但这些方法自身还存在着一定的局限性,且未充分考虑音频信号的复杂多样性。因此,仍然需要对时序关系依赖的音频语义特征学习方法进行更深入的研究。基于此,本文从无监督和有监督学习两个方面,对音频样本中时序信息的学习问题展开研究,提出了一系列解决方法:1.为探索能有效刻画完整时序信息的语义特征学习方法,先从最简单的情况出发,尝试一种能够在单一尺度上捕捉基元间时序关系的时序建模方法。首先利用音频词袋方法以固定的时间尺度构建出每个样本的片段级基元表示序列,然后以此为基础,提出一种基于回归的无监督时序性特征学习方法。它以基元间的时间先后顺序为约束,利用参数可学习的线性函数来对基元间的时序关系进行编码,并通过求解支持向量回归问题来对参数进行学习,最后将函数参数作为完整序列的特征表示。此外,通过使用基于稀疏编码的音频词袋方法所构建出的基元表示序列作为输入,所提出的方法可以获得更为鲁棒的音频语义特征。实验结果表明,所提出的无监督时序性特征学习方法可以有效提升音频分类系统的性能。2.鉴于目前大多数时序建模方法都是在单一尺度的基元表示序列上,对基元间的时序关系进行建模。然而,音频数据中各声音事件的变化快慢程度并非一致,其所对应的基元尺度也不可能完全相同。因此,采用统一尺度的基元表示不足以充分反映音频数据的这一特点,需要考虑多尺度的基元表示形式,以及有效刻画多尺度基元间时序关系的方法。为此,将所提出的基于单尺度基元间时序关系的时序性特征学习方法,推广为具有层级结构的能有效捕捉多尺度基元间时序关系的金字塔时序池化网络。首先采用能在多种尺度上刻画局部时频结构的卷积神经网络来构建出样本的基元表示序列。然后利用金字塔时序池化网络学习序列中的多尺度时序信息,进而得到表达能力更强的音频特征表示。实验结果表明,对于声学事件识别和声学场景分类,所提出的方法均可有效地提升系统的性能。3.鉴于音频数据的类别标签包含了人类对其认识的先验知识,合理地利用这些先验知识,将有助于获得更有效的语义特征表示。为此,利用双层优化思想,提出一种有监督的时序性特征学习方法,将类别先验信息引入到时序关系依赖的语义特征学习之中。首先通过将先前基于回归的无监督特征学习中的时序关系编码问题,看作是顶层分类器优化目标的底层约束条件,来构造出任务驱动时序性特征学习问题的双层优化结构。然后采用基于梯度的优化策略对此双层优化问题进行求解,以实现对基元间时序关系及分类器参数的联合学习。实验结果表明,所提出的方法能在更低维度的特征空间中获得区分能力更好的语义特征。4.鉴于声学场景中存在着语义无关联的短时声音模式,它们之间并不存在时序依赖关系。若捕捉所有模式间的时序关系将会引入冗余信息,因而需重点考虑捕捉语义相关模式间的时序关系。为此,提出以语义近邻为约束来学习基元间时序关系的思想,进而提出一种端到端的三维卷积神经网络,来实现对基元表示、基元间时序关系依赖的语义特征,以及分类器的联合学习。所提出的网络将经过卷积运算后得到的局部基元表示映射到语义空间,并通过聚类的方式获得各基元的语义近邻,然后采用多层感知机来对各基元及其近邻间的时序关系进行学习。此外,还提出一种注意力池化的方法来对语义邻域内的时序关系进行聚合,从而使得网络能在更大的邻域内获得有助于分类的时序关系。实验结果表明,所提出的网络可在声学场景数据集上获得优异的分类性能,并超过众多主流的深度学习方法。