关键词:
知识表示学习
图神经网络
链接预测
推荐算法
摘要:
知识图谱语义建模能力强大且应用场景广泛。它以符号形式的三元组集合表示了现实世界中海量的知识——不同实体通过三元组表达的关系相互链接,共同形成“图结构中的知识”。传统符号化三元组的知识表示方式,需要通过最短路径、子图匹配等图算法进行计算和应用,面临严重的计算效率和准确性问题。知识表示学习应运而生,并逐渐成为热门研究方向,在智能搜索、推荐和智能问答等领域发挥着重要作用。其旨在通过表示学习将实体和关系映射到低维稠密向量空间,从而提高知识计算效率和准确性。如何设计知识表示学习模型,使学到的向量表示能有效保留知识图谱语义信息和结构性质,并充分发挥其潜在价值,成为制约相关研究走向应用的关键。
国内外在知识表示学习方面已取得诸多研究进展。现有基于翻译距离的方法初步实现了三元组语义信息建模,图神经网络技术的发展也为图结构信息建模提供了技术基础,对后续研究工作的开展提供了极具价值的启发意义。然而目前的知识表示学习仍面临着以下挑战:(1)如何充分考虑异质实体多类型特征来设计知识表示模型;(2)如何充分建模异质长尾关系的语义信息;(3)如何充分挖掘低度实体的语义信息,克服稀疏知识表示效果退化现象;(4)如何考虑网络的动态性,从而对动态图中的知识进行有效表示和应用。
针对以上挑战,本文立足于知识图谱异质性、稀疏性、动态性的本质特征,对基于图神经网络技术的知识表示问题展开深入研究。首先,研究了多类型实体建模问题,设计适用于复杂知识表示的异质图神经网络;然后以其作为研究基础,先后设计了面向异质长尾关系的知识原型网络,以及稀疏实体的高阶语义学习方法;最后研究了动态网络中的知识表示方法,并进一步探究了上述挑战对基于知识的应用引发的新问题及解决方案。综上,本文的主要研究工作及创新点如下:
(1)针对多类型实体建模问题,本文提出基于层次多类型的实体表示模型。模型首次针对具有多个类型的实体,且类型间语义相关的现象,设计了多类型表示模块,捕捉类型语义及类型间的关联性。并将编码后的多类型信息注入到类型感知的实体关联语义模块,指导实体关系语义学习过程,综合学习实体在不同层面的语义信息。通过链接预测和实体分类等实验分别验证了该异构知识表示框架的有效性。
(2)针对异质长尾关系建模问题,本文提出了双通道的关系原型知识表示模型,通过不同通道建模不同粒度的关系语义信息,从语义的角度加强关系信息建模。在通道一进行细粒度层面关系语义建模,基于多关系域的三元组划分方法学习具体的关系实例表示。在通道二进行粗粒度的关系语义建模,通过关系实例学习关系空间的原型表示。同时,采用元学习方法进行网络的训练,进一步提升模型对少样本关系的学习能力。在对知识图谱少样本关系的预测实验中,本文提出的模型相比诸多基线方法在关系预测准确性方面有显著提升,证明了上述双通道关系原型学习的有效性。
(3)针对稀疏知识带来的实体邻域信息语义建模问题,本文提出知识的多视图对比表示模型。基于层次知识设计多视图语义建模策略,分别从局部视图和全局视图挖掘低度实体的低阶和高阶语义信息。通过不同视图对比学习,充分获得表达能力强的知识,克服了图神经网络深层退化问题导致的高阶语义学习不充分或噪声问题。在上述工作的基础上,进一步研究了如何利用稀疏知识有效促进下游任务,在多个数据集上进行了基于知识的推荐实验,结果表明本文方法在不同的评价指标下均表现优异。
(4)针对知识动态演进问题,本文提出基于语义互信息的动态知识表示方法,综合建模异质语义信息和知识动态演进规律,实现准确的实体动态表示及预测。本文设计基于语义单元的异质信息学习机制,促进隐含结构挖掘和深度语义融合,并设计基于多粒度的知识演进规律建模方法,捕捉节点语义在不同粒度的演进知识。然后融合不同粒度的动态信息得到节点最终的动态表示,从而提升动态链接预测任务效果。最后在包含不同领域动态知识的真实数据集上进行大量对比实验及消融实验,结果表明本文所提出动态知识表示方法在动态链接预测应用中取得目前最优效果。
通过以上研究,本文可以为不同场景的知识表示问题提供基于图神经网络的理论框架和解决方案,并在此基础上提升知识表示模型的表达能力,为相关领域的知识应用提供理论依据和技术实践支持。