关键词:
外卖评论
文本情感分析
多主题分类
CNN
LSTM
CNN_LSTM
集成学习
LDA主题模型
Word2Vec模型
摘要:
互联网的快速发展促进了许多网络平台的诞生,人们即使相隔万里也能通过同一个网络平台表达自己的想法,由此在各平台上留下了海量的评论文本,从这些评论文本中我们可以挖掘出对自己有利用价值的信息来进行分析,比如从大众对热点事件的看法中挖掘出舆论走向,从网购商品的评论中挖掘出顾客的使用反馈,从影视剧作品的影评中挖掘出作品的内容和质量等。文本情感分析技术已在各个领域形成了以深度学习和机器学习为基础的相对成熟的研究体系,如何进一步提升情感分析模型的效果是目前文本分析领域的研究方向。互联网外卖平台作为与大众生活密不可分的网络平台,也是餐饮业扩大市场规模的重要途径,顾客的评论是外卖平台直接获取反馈信息的方式,作为餐饮行业最应该关注的就是顾客评论中体现的需求和欲望。顾客的评论信息是自己的体验反馈,也成为了口碑传播的重要方式,因此外卖平台亟需从顾客评论中来判断顾客的情感倾向,分析影响顾客评论情绪的主要方面,从而为商家、骑手和平台提出合理性建议。目前对于外卖平台顾客评论文本的情感分析研究较少,研究的范围和方法也较单一,主要是传统的机器学习方法如支持向量机、朴素贝叶斯等,还有模糊评价法,以及从现成的情感词典来判断情感极性等,已有的外卖评论情感分析的研究也主要集中在单一主题下的情感极性预测和不分主题下的情感极性预测这两个方面,而从外卖评论文本来看,不论是不分主题还是单一主题都是不完善的,因为一条评论会出现包含多个主题类别不同评价的情况,基于此,本文对外卖评论的多主题分类情感分析方法不再局限于不分主题和每条文本单一主题的研究思路,而是将顾客在线评论中所要表达的不同方面的情感极性逐一建立模型进行分析预测,最后经过概率的加权平均得到综合情感极性,不仅将信息进行更精细的提取,也给外卖的三大主要领域即商家、骑手、平台提供了更具体的评价结果。本文具体的研究工作主要包括以下几个内容:
(1)基于卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)提出了将两者优点进行结合的CNN_LSTM模型,该模型拥有卷积神经网络对特征提取的能力以及长短期记忆网络对长序列文本处理的能力,将百度外卖评论文本经过Word2Vec模型训练得到的词向量和词索引作为每个深度学习模型的输入,通过对比单一的CNN模型、LSTM模型与CNN_LSTM模型的预测分类结果,得到CNN_LSTM模型拥有更好的评论文本情感极性预测分类表现的结论。
(2)基于是否分主题进行外卖评论文本的情感极性预测,本文提出了多主题分类下的文本情感分析,通过LDA主题模型训练得到评论文本的主题概率分布,经过人工理解和主题归并得到商家菜品、平台服务和骑手配送三大主题,在每一个主题下进行CNN、LSTM、CNN_LSTM三个深度学习模型的训练,得到评论文本在每一个主题下的情感极性,再经过概率加权平均得到综合的情感极性标签,将其与传统的不分主题下文本情感分析进行对比,得到了在多主题分类的方式下深度学习模型的情感极性预测效果都要优于不分主题下预测效果的结论,证明多主题分类的情感分析考虑了每条评论涵盖的所有主题,不仅保证了模型所利用的文本样本信息是全面的,也提高了情感分析预测过程的细致度和精确度。
(3)基于集成学习能够有效提升模型的泛化性能,本文提出将在传统机器学习中用来提升分类预测效果的集成学习Bagging方法运用到深度学习模型上,分别在不分主题和多主题分类下建立了基于Bagging的CNN模型、基于Bagging的LSTM模型和基于Bagging的CNN_LSTM模型,通过在百度外卖评论文本上的实证分析获得了基于Bagging的集成学习能够进一步提升深度学习模型的泛化性能的结论。