关键词:
知识图谱
分布式表示
嵌入向量
认知智能
知识推理
摘要:
随着认知智能时代的到来,越来越多的智能应用更加关注学习结果的可解释性和大数据中蕴含的知识。面对这一需要知识赋予智能的需求,知识图谱以其大规模、自动化的知识获取特点和可解释、可推理的知识应用特点为认知智能赋能,被广泛应用于智能搜索、问答系统和个性化推荐等场景。然而,传统离散符号式知识表示方法在应对现代知识图谱的大规模需求、语义关联性度量及深度模型应用等方面受到了限制。近年来,受自然语言处理领域分布式假说的启发,知识图谱分布式表示方法为解决上述问题提供了思路:通过将知识图谱中的实体和关系表示成低维的数值向量,从而将对应的语义信息嵌入到稠密、连续的向量空间中,具有高效实现语义关联性计算、易于捕获隐性知识、易于与深度模型集成的优点。因此,知识图谱分布式表示学习逐渐成为现阶段知识图谱领域的热门研究方向。受分布式假说启发,知识图谱分布式表示认为知识图谱中的实体和关系的语义取决于其周围的分布。但是,由于数据的“不完备性”导致知识图谱普遍存在的数据稀疏问题,使得现有方法也无法较为准确地学习出长尾实体的表示,在知识推理相关任务上往往准确率较低。此外,现代知识图谱的规模化需求使得现有方法很大程度上仍旧依赖弱逻辑约束,无法充分表达知识图谱蕴含的复杂知识结构如网状结构和动态结构,为知识图谱分布式表示带来了挑战。为此,本文在深入调研和分析之后,在知识图谱分布式表示学习领域开展了以下三个创新性研究工作:(1)面向数据稀疏问题,提出了一种融合实体描述信息的知识图谱分布式表示学习方法,将实体描述信息作为知识图谱中已有结构化信息的辅助与补充,为其提供更加深入的细节描述并挖掘可能遗漏的新知识,增强长尾实体的表示。首先,针对实体相关语义抽取不足的问题,提出了基于分层双向长短期记忆网络和预训练语言表征的实体描述信息编码模型,有效地抽取实体描述中包含的丰富语义信息。其次,针对文本空间与知识空间融合不足的问题,提出了一种知识约束与对齐方法,能够同时从结构三元组和实体描述中学习实体表示,并实现文本空间和知识空间的交互式融合对齐。在知识图谱补全任务上(全部及长尾案例数据)的实验结果充分证明了上述方法能够帮助建立更好的知识图谱表示并增强长尾数据的表示。(2)面向网状知识结构问题,提出了一种基于图邻域结构信息的知识图谱分布式表示学习方法,通过考虑知识图谱所蕴含的多步关系路径、节点邻域等图结构特性,从另一个角度更加丰富的刻画实体和关系的网状语义分布。首先,针对多步关系路径语义抽取的问题,提出了一种基于局部和全局注意力的多步关系路径编码模型,在对单条路径编码的基础上,考虑实体对之间的多条路径的局部和全局注意力进行编码。其次,针对实体邻域信息聚合问题,提出了一种基于图注意力网络的分层结构模型:邻域级注意力→层级注意力,有效地聚合多步邻域信息。在知识图谱补全任务上(实体及关系预测)的实验结果充分证明了上述方法能够有效地利用图结构信息学习实体和关系的分布,增强知识图谱分布式表示的知识推理能力。(3)面向动态知识结构问题,提出了一种基于时序历史记忆的知识图谱分布式表示学习方法,从双过程理论的角度解决实体和关系随时间发展的非线性演化及不确定性给知识图谱表示带来的问题。首先,提出了基于直接历史线索和关联历史线索作为预测未知事实的线索信息的重要性。其次,提出了一种可以同时考虑历史线索重复次数与时间轴趋势的滤波函数,实现更为细致的复制推理。最后,提出了一种改进的自注意生成机制,可以促使模型关注与待预测事件更为相关的实体词汇,并赋予模型从头开始预测的能力。在时序知识图谱补全任务上(未知事实推断)的实验结果充分证明了上述方法能够有效的增强时序知识图谱分布式表示的知识推理能力。