关键词:
弱监督学习
时序动作检测
完整性表达
显著性增强
子动作单元
摘要:
视频时序动作检测是指在一段未裁剪的长视频中,检测出动作发生的区间,并对其进行分类。它被广泛应用于监控安防、人机交互等多个领域。弱监督时序动作检测方法只需给出视频级别动作标签,即可实现未剪辑视频动作检测定位,节约大量的人工标注成本,能更方便、更及时地得到应用,已成为当前计算机视觉和多媒体领域的研究热点。
目前,弱监督时序动作检测方法仍然存在许多问题,如:在未剪辑的视频中,动作定位存在碎片、开始与结束时间不准确,即动作定位的不完整性;视频中动作与背景、动作与动作之间表达的鉴别性不足,即动作特征表达显著性不足;动作的检测定位仅局限于给定的动作类别和相似的视频场景,即无法有效实现开放环境下的动作检测定位。因此,本文针对未剪辑的视频,围绕视频中动作实例建模的完整性、视频动作特征学习的显著性以及开放环境下细粒度子动作的完整性与显著性特征表达三个问题与挑战开展弱监督时序动作检测研究,提出一系列面向弱监督时序动作检测的视频动作特征学习与建模方法。本文的主要贡献概括如下:
(1)提出一种基于深度级联动作注意力机制的特征学习方法。为了更好地挖掘出视频中的次显著动作片段和非动作片段,而提升视频时序动作特征的完整性和鉴别性,提出一种基于深度级联动作注意力机制的视频特征学习方法。该方法从视频动作特征的完整性出发,通过引入阈值擦除法,同时对视频中最显著的主动作片段和不同级别次显著的子动作片段建模,从而保证了动作实例的完整性。此外,引入非动作的熵损失函数限制视频中非动作片段的激活。该方法可以更好地区分视频中的动作片段和非动作片段,有效地解决了动作片段和背景片段的分离问题,使动作实例表达更加完整、更加准确,而促进更精确的动作定位。在THUMOS14和Activity Net1.3数据集上进行的大量实验表明,与相关先进方法相比,所提方法在高t-Io U情形下检测性能均更优,在t-Io U为0.5时检测性能分别提升了0.3%至5.8%和1.7%至2.6%。
(2)提出一种基于时空关联和动作背景联合注意的特征学习方法。针对现有方法仅从单一片段对视频建模,忽略了视频中动作片段的关联性学习,而影响动作表达的显著性和鉴别性,不利于更准确的动作定位问题,提出一种基于时空关联学习的动作检测方法。为了挖掘视频中动作发生所体现的空间和时间的内在相关性,融合经图卷积神经网络和一维时序卷积网络学习的空间特征和时序特征,确保为动作定位提供更加完整的特征表示。针对视频中动作背景分离困难的问题,提出一种动作背景联合注意力机制,构建三分支网络对背景显式建模。这种分类网络可以更好地实现动作和背景的分离,从而提升动作表达的显著性和鉴别性,促进更精准动作定位问题的解决。在THUMOS14和Activity Net1.3数据集上进行的实验表明,所提方法的平均检测性能比相关先进方法分别提升了0.1%至2.4%和0.4%至3.9%,特别是在高t-Io U阈值下性能提升更显著,验证了所提方法的有效性。
(3)提出一种基于特定类别聚合帧动作显著性增强特征学习方法。针对现有单帧监督方法仅从视频片段序列对标注单帧建模,忽略了标注帧本身的动作判别性,而影响了动作特征的更显著表达问题,提出一种通过聚合特定类别帧增强动作显著性表达方法。该方法将同类别中标注帧聚合,视为其类别的特征示例。通过计算视频中每帧与每个动作示例的相似性,得到其类激活分数来更显著学习动作特征。为了增强动作判别性的一致性属性,提出一种用于标注帧和片段序列的凸组合融合机制,用以生成更加鲁棒的类激活序列,从而实现更显著的动作特征表达和更精确的动作分类和定位。在常用的三个数据集THUMOS14,GTEA和BEOID上实验表明,与单帧标注的相关先进方法相比,所提方法平均检测性能分别提升了0.9%至9.4%,0.4%至10.2%和0.4%至17.3%。
(4)提出一种面向开集弱监督时序动作检测的子动作单元感知的特征学习方法。针对动态变化的开放世界,封闭场景下的检测方法无法对新的动作类别正确分类和定位的问题,提出一种基于子动作单元感知的视频特征学习方法。首先,通过图卷积网络学习子动作单元与已知动作之间的语义关联关系,形成动作中子动作单元的关系模型,使之可利用待检测动作在子动作单元上的激活程度差异鉴别已知类和发现未知类动作。其次,考虑到子动作单元的时序信息具有区分已知类动作和未知类动作的特性,构建动作中子动作单元时序关系模型,用以区分检测因语义关系模式相同而时序关系有差异的动作,可更有效地检测已知和未知类动作,更有效解决开放场景的动作检测问题。在THUMOS14和Activity Net1.3数据集上进行大量的实验,结果表明所提方法与目前最先进的方法相比,平均检测性能分别提升了0.4%和0.3%。