关键词:
知识图谱
分布式表示
层次化类别
软规则
前向推理
推荐系统
注意力机制
摘要:
随着人工智能逐渐迈向认知智能,知识图谱已经成为当今大数据时代一种重要的知识表示和组织形式,被广泛应用在智能搜索、问答系统以及个性化推荐等领域,为它们知识赋能。知识图谱由实体和关系组成,实体表示客观世界的事物,关系表示实体之间的相互联系。传统的知识图谱使用符号化的形式表示,将实体和关系使用唯一符号进行表示。然而这种符号主义无法应对大规模知识图谱的需求,不能表达实体之间潜在的语义关联,同时阻碍了知识图谱的应用。随着知识图谱技术的不断发展,知识图谱分布式表示被提出并用于解决上述问题。知识图谱分布式表示是将实体和关系分别映射到低维连续的向量空间,使用对应的向量表示它们的语义信息。知识图谱分布式表示高效便捷的优点,使得分布式表示的学习方法和应用成为现阶段知识图谱领域的热门研究课题。
然而,知识图谱普遍存在的实体数据稀疏性问题,导致可以学习的显式语义信息不足,难以习得高质量的分布式表示,如何增强语义成为知识图谱分布式表示学习的重要挑战,本文分别从实体和关系的角度出发,探索增强知识图谱语义的方法。另外,由于知识图谱的结构化信息和推荐系统中用户物品交互信息之间的异质性,使得将知识图谱分布式表示直接应用到个性化推荐领域变得十分困难。本文在深入调研和分析现有解决稀疏性问题的知识图谱分布式表示学习方法和结合知识图谱的推荐算法相关研究之后,在知识图谱分布式表示学习方法和应用领域开展了以下三个创新性研究工作:
首先,本文以实体作为研究对象,通过引入实体的类别信息增强知识图谱语义,缓解数据稀疏的问题。然而,当前结合类别信息的方法往往忽略了它隐含的深层语义,针对该问题本文探索了类别信息潜在的丰富语义并对它们进行建模。具体而言,类别信息除了用来约束属于同一类别的实体,它还具有层次化结构和关系的类别约束这两个重要的特性。为了建模类别层次化结构的反对称性和传递性,以及利用关系的类别约束信息,本文提出了一种全新的结合层次化类别信息的分布式表示学习方法。首先将类别映射到不同于实体的向量空间,然后在类别向量空间上使用Order Embedding偏序关系建模类别的层次化结构,接着将实体向量通过线性变换映射到类别向量空间保证它与所属类别满足偏序关系。对于关系的类别约束,将关系对应的头(尾)实体以同样的方式映射到类别向量空间,并保证它与约束关系的类别满足偏序关系。基于四个基准数据集,在多个实验任务上进行大量的实验结果验证了本文提出的方法的优越性。
其次,本文以关系作为研究对象,通过引入由关系组成的逻辑规则增强知识图谱语义。这些逻辑规则蕴含在知识图谱中,可以通过规则挖掘的方法从中自动抽取,挖掘得到的带有置信度的逻辑规则称之为软规则。针对支持复合规则难、软规则作为约束项不能有效表达规则逻辑语义的问题,本文通过回归学习软规则的方式,提出了一个联合训练事实和软规则的算法。首先,使用模糊逻辑理论建模软规则,软规则由前向推理得到的所有有效实例化规则进行表示。然后,通过联合学习事实和软规则将规则的语义有效地融合到知识图谱分布式表示中,从而达到增强语义的目的。此外,为了支持海量规则和大规模知识图谱进行高效地前向推理,本文设计实现了一个基于分布式内存计算平台Spark的规则引擎系统。在两个大规模知识图谱上的实验表明本文提出的联合训练算法的优越性以及使用前向推理的合理性。
最后,针对将知识图谱分布式表示应用到推荐系统上面临的不同用户对不同实体和关系的偏好不同的问题,本文提出一个基于细粒度知识图谱感知注意力机制的个性化推荐算法。在传播与物品有高阶关联性的实体向量的过程中,设计了细粒度注意力机制为这些实体向量生成不同用户交互下的权重,该细粒度注意力机制依次考虑了用户对关系路径的偏好和用户对实体的偏好。在四个真实推荐场景下的实验结果表明了该算法的有效性和优越性。