关键词:
复杂时序数据
时序数据表征
深度神经网络
自监督学习
摘要:
时序数据特征表示是数据挖掘领域中一个重要且核心的研究问题,其具有重要的理论研究价值和广泛的商业应用价值。实际上,时序数据挖掘在许多关键的国家经济和社会民生领域中发挥着重要的作用,例如医疗、工业、教育、金融、交通和在线网络平台等领域。由于时序数据挖掘蕴含着巨大价值,包括数据科学在内许多交叉学科的研究人员已经围绕时序数据挖掘做出了一系列优秀的研究工作。其中,基于数理统计和特征挖掘的传统机器学习方法在一些时序数据挖掘应用场景中取得了一定的成效。然而,随着物联网传感器和互联网在线平台的快速渗透,越来越多的系统能够感知并记录其运行状态,形成大量的复杂时序数据。这种类型的数据规模不仅庞大,且在数据与目标挖掘任务之间呈现非线性映射关系,导致传统的时序建模方法在处理如此复杂的时序数据时变得越来越力不从心。因此,针对复杂时序数据,如何高效、精准地表征复杂时序数据是时序数据挖掘领域中一个重要研究问题。近年来,研究人员发现:相较于传统的时序分析与建模方法,深度神经网络具备更强的非线性特征转换能力,并且易于并行高效计算。在此背景下,基于深度神经网络的表征方法逐渐成为时序数据特征表示的关键技术途径。虽然研究人员在时序数据挖掘领域已经开展了部分深度时序建模研究工作,但已有的深度建模方法容易受到时序数据中多种复杂特性的干扰,仅取得了有限的时序数据表征结果。为克服时序数据中的复杂性并提高数据表征的质量和精度,需要进一步开发更加先进的深度时序建模方法。为此,本文系统着重研究了复杂时序数据表征学习方法,并以三种典型的复杂时序数据为实例化研究对象,包括基于物联网传感器采集的数值时序数据、基于互联网在线平台采集的用户时序行为以及多模态时序行为数据。在此基础上,本文提出了一系列基于深度神经网络的复杂时序数据表征学习方法研究工作,旨在为复杂时序数据表征学习提供新的思路和方法,帮助解决复杂时序数据表征问题。本文的主要贡献包括提出面向复杂时序数据表征的各种方法和技术。具体来说,本文的主要工作和贡献如下:首先,本文研究了数值型时序数据表征学习方法。一方面,本文针对数值时序数据中的特征多样性挑战,考虑到存在多种复杂多样的时序长度所构成的特征模式,因此提出了一种基于分层自注意力机制的多尺度建模模型,称为FormerTime。在FormerTime模型中,本文设计了一种分层自注意力网络架构来提取多尺度数值时序特征。值得一提的是,FormerTime模型克服了原始自注意力机制随输入时序序列长度二次方成比例增加的问题,使得模型即使在大规模长序列数值时序数据集上也可以实现高效计算。另一方面,本文研究了数值时序数据标签稀疏性难题。鉴于数值时序建模中深度神经网络架构的复杂性,往往难以训练并容易出现过拟合问题。因此,本文提出了一种基于子序列遮挡预测的数值时序数据自监督训练方法,称为TimeMAE,旨在从无标签数值时序数据中预训练通用可迁移的数值时序模型,以辅助下游目标挖掘任务。提出的TimeMAE模型不仅实现了每个输入区域的左右上下文特征提取,而且在无需依赖额外的人工先验知识下实现了围绕数值时序数据为中心的特征理解。为验证以上提出的方法,本文多个领域真实世界数据集上开展了大量实验验证。实验结果表明,上述提出方法能够获取优于对比基准方法的分类结果。其次,本文研究了呈类别属性的用户时序行为表征学习方法。一方面,本文探究了用户时序行为建模中的复杂易变性难题。在内外因素共同影响作用下,用户时序行为往往呈现复杂多变的特点,难以捕捉。为此,本文提出了一种基于混合深度神经网络架构自动搜索的用户时序行为表征学习方法,称为NASR。该方法旨在通过进一步加深时序行为建模网络架构的层数,且集成卷积与自注意力能力来有效地建模用户时序行为的全局与局部层次化依赖关系。为了高效地设计适用于特定任务的网络架构,本文提出采用网络架构自动搜索的策略。该策略能够自适应地搜索出在给定场景数据下具有较优性能的混合卷积和注意力机制的深度神经网络架构。另一方面,本文研究了用户时序行为中存在的交互稀疏性难题。具体来说,本文提出了一种基于用户兴趣对齐的用户时序行为表征预训练模型,称为CLUE,以提升目标域中用户时序行为的表征效果。在提出CLUE模型中,本文引入了一种基于非负采样的用户表征兴趣对齐预训练框架,并引入了基于原始时序行为扰动的显式增强策略和基于模型特征转换的隐式增强策略,以实现兴趣对齐的用户表征对比预训练。针对以上提出的方法,本文在真实世界的实验数据集中进行了大量验证实验,实验结果证明上述提出方法能够获得更为精准的时序推荐结果。最后,本文除了研究单模态时序数据表征学习方法,还着重研究了多模态设置下时序数据表征建模方法,并以多模态时序行为作为实例化研究对象。考虑到传统基于物品标识符的时序行为数据可能无法全面反映用户的真实偏好,协同融合