关键词:
文本挖掘
主题模型
先验信息
背景词
Gibbs采样
用户画像
摘要:
在智能手机和移动网络日益普及的当代社会,微信成为继微博、腾讯QQ之后主流的社交工具。其中微信特有的微信公众号功能受到广大用户的喜爱,并产生了数以万计的微信公众号和海量的有关公众号经营内容的文章。对这一类独特的且具有真实来源的非正规文本进行分析与挖掘是目前数据挖掘研究领域的一大热点与难点。本文利用主题模型算法对微信公众号文章进行文本主题提取,并进一步融合文本的多种特征实现阅读者的画像构建,以帮助公众号运营者提高个性化推送的准确性,同时也为网络环境监控提供数据支撑。本文的主要工作包括以下三个方面:(1)针对主题模型算法产生的主题-词分布包含较多噪声词以及一词多义问题,提出了一种有效融合词的先验信息和背景词的主题模型算法。算法主要思想是根据词的先验信息计算出特定于每个主题的先验分布参数,并在词语的采样过程中对背景词和主题词进行区分。(2)本文提出的主题模型算法保留了传统模型的共轭分布的特性,因此进一步提出了一种有效的Gibbs采样方法来实现模型的参数推断。本文使用微信公众号文章数据集合进行了大量的实验,证明本文提出的主题模型算法在模型困惑度、主题一致性、模型训练时间等方面都有一定的提高。为了更进一步评价本文提出的主题模型算法的文本表示能力,针对文本分类任务和聚类任务分别进行了实验,进一步验证了本文提出的主题模型算法的有效性。(3)进一步将主题模型算法应用到用户画像构建任务上,提出了两种不同的应用方法。一种是基于Stacking分类器融合策略的用户画像标签分类算法,该分类算法可以对用户四个方面的画像内容进行建模。另一种是基于语义相似性的用户兴趣建模算法,该算法只针对用户兴趣这一个方面来建模,改善了将主题模型算法应用到用户兴趣建模任务上结果缺乏可解释性的缺点。实验证明,本文提出的两种应用方法获得的用户画像构建的准确率具有一定的先进性,与其他算法相比准确率有一定的提高,并且结果更易被理解,更具有实际应用价值。