关键词:
深度神经网络
自然语言处理
文本表征
文本分类
跨语言摘要生成
摘要:
随着信息技术的快速发展,机器智能化成为必然趋势。自然语言处理作为实现人机交互的关键技术,通过文本表征学习使机器能够理解人类语言。近年来,得益于深度神经网络强大的特征学习能力及其对复杂语言现象的建模能力,计算机在文本表征学习方面获得了新的动力。同时,预训练技术的广泛应用更是推动自然语言处理进入蓬勃发展阶段,使得计算机在许多简单或数据充足的任务场景中能够有效地学习文本表征,从而获得显著的性能提升。然而,当数据条件或任务难度存在挑战时,使用深度神经网络进行文本表征学习存在一定难度,导致模型在鲁棒性和泛化性方面表现不佳。本文聚焦于三个具有挑战性的任务(半监督文本分类、文本标签噪声学习和跨语言摘要生成),针对当前文本表征学习面临的一些问题,研究设计有效的表征学习方法,以提升模型的鲁棒性和泛化性,从而进一步扩展自然语言处理的应用范围。本文的创新点归纳如下:
(1)针对有限标注数据下模型参数规模较大的问题,本文提出了一种基于教师干预的轻量化半监督文本分类方法Li ST。该方法利用预训练模型在半监督训练下的强大表征能力,促进轻量级模型对大量未标注数据的表征学习,从而有效降低模型规模。具体而言,Li ST结合文本数据增强策略,设计了一种融合知识蒸馏与自训练的学习策略—教师干预。该策略通过逐步降低教师预测在伪标签中的权重,使轻量级模型在吸收教师知识的同时,增强自学能力,从而打破传统知识蒸馏方法的性能和结构限制。实验结果表明,Li ST在半监督场景下尤其在标注数据极为有限(如每类仅2个样本)的情况下,显著提升了轻量级模型的性能表现,在三个基准数据集上的平均提升达17.39%。
(2)针对深度模型对噪声敏感度高的问题,本文提出了一种自适应文本标签噪声学习方法,有效降低了文本表征学习对高质量标注数据的依赖性。该方法通过监测训练集样本的正确性统计量变化来判断模型当前拟合噪声的程度,以实现对不同类型噪声场景的自适应预热,从而避免模型过度拟合错误标注样本。此外,后续的混合训练阶段利用正确性统计量划分噪声数据和干净数据,并对不同的数据子集应用不同的训练策略,以促进模型对错误标注数据的正确学习,从而提升模型的文本表征能力和鲁棒性。实验结果表明,自适应方法能在不同噪声场景下实现预热阶段的准确早停,显著提升模型应对未知噪声场景的能力,在构建的36个测试场景中获得了24个最佳精度性能。
(3)针对目前标签噪声学习方法(包括自适应文本标签噪声学习方法)引入额外估计误差的问题,本文提出了一种动态训练方法,有效避免了误差累积和参数依赖。该方法将模型的学习过程建模为一个统一的动态过程,通过动态标签融合的方式,利用模型预测来修正原始标签可能带来的错误梯度贡献,从而提升文本表征的质量。根据模型在不同文本标签噪声场景下的学习动态,将原始标签的权重变化建模为指数衰减函数,并引入R-Drop策略来增强模型预测的准确性,以维持训练的稳定进行。实验结果表明,与划分阶段的方法相比,动态训练方法能更好地抵抗标签噪声影响,使得模型在鲁棒性和泛化性上有进一步的提升,在36个相同测试场景中的平均提升为1.09%。
(4)针对高难度任务场景(如跨语言摘要生成)中数据利用效率低下的问题,本文提出了一种基于平行翻译对对齐的统一训练方法。该方法将跨语言摘要任务与翻译任务视为同一任务,仅在输入文本长度上有所差异。基于这一思路,本文提取跨语言摘要三元组数据中的翻译对和跨语言摘要对,在同一个模型中对其进行统一训练。此训练方式可以统一输出端的语言向量空间,从而无障碍地实现表征向量和输出分布的对齐,缓解了不同语言向量空间导致的文本表征差异问题。此外,为低资源场景设计了基于统一训练的自训练策略,通过翻译额外的单语摘要数据生成高质量伪标签,以扩充有限的跨语言摘要三元组数据。实验结果表明,统一训练方法和自训练策略实现了对跨语言摘要数据的高效利用,显著提升了模型的跨语言摘要和泛化能力。统一训练方法在完整数据场景下平均性能提升为0.33%,而改进后的自训练策略在低资源场景下的平均性能提升为7.68%。