关键词:
文本分类
半监督学习
对抗学习
强化学习
摘要:
随着互联网的飞速发展,网络中充满着大量的文本、图片、音频、视频等形式的数据,而其中以文本数据最为常见。面临纷繁复杂的文本信息,往往需要对其进行有效地辨识和归类存档,所以文本分类技术应运而生。文本分类已经被广泛应用于搜索引擎、信息检索和情感分类等领域。早期的文本分类通常使用有监督学习的方法进行,需要利用有标记样本来训练分类器,但有标记样本需要由人工标注,这一过程耗时耗力,并且仅仅利用有限的有标记样本得到的分类器效果有限,而在互联网上存在着大量的无标记数据,于是人们开始研究使用半监督学习的方法来进行文本分类。半监督学习是同时利用一部分有标记样本和大量未标记样本来训练分类器的方法,通过利用未标记样本的信息来提高分类器的性能,其已经被广泛应用于解决文本分类等自然语言处理问题。近年来随着深度学习的发展,深度神经网络被应用于诸多领域并取得了突破性的成绩,其中对抗式生成网络大放异彩,它所使用的对抗学习方法可被用于解决诸多实际问题。本文基于此方法将对抗学习应用到半监督文本分类领域。本文的研究工作主要包括以下几部分:(1)对经典的文本分类技术进行介绍和分析,详细介绍了常见的有监督文本分类算法和半监督文本分类算法的主要内容和优缺点;介绍了对抗学习方法的内容,并对其研究进展进行了综述。(2)针对传统的半监督文本分类算法存在性能不佳、无法有效利用大规模数据资源的不足,构建基于对抗样本训练的深度学习模型ATN,ATN模型使用结合attention机制的双向LSTM作为基本网络模块,向输入的词向量中添加对抗扰动生成对抗样本,使用混合的代价函数进行对抗训练,并通过实验验证ATN模型的有效性。(3)针对ATN模型中未标记样本不能直接应用于训练分类器这一不足,设计基于强化对抗网络的对抗学习模型RLAN,其中强化对抗网络包含预测网络和评判网络两个子网络,通过预测网络和评判网络的对抗学习不断迭代提升RLAN模型的分类效果,最后通过实验验证RLAN模型的可行性和鲁棒性。(4)为了进一步提高分类性能,将ATN模型和RLAN模型进行结合,组成AT-RLAN模型。从数据层面上,借助基于对抗扰动生成的对抗样本防止过拟合的发生,从框架层面上,借助强化对抗网络中子网络的对抗进行迭代训练,两者结合互补可以有效提升AT-RLAN模型的泛化性能,相比其他模型,最终准确率有明显的提高。