关键词:
知识图谱
知识表示学习
知识图谱嵌入
知识图谱对象匹配
细粒度建模
摘要:
知识图谱是一种高效的知识组织、管理和运用的语义网络,对人工智能生态从感知智能向认知智能的跃进意义重大。知识图谱的构建通常要经过知识表示、知识获取、知识融合等阶段,本文面向体育赛事知识图谱自动化构建,开展以知识表示阶段知识表示学习为中心的研究。
知识表示学习是知识图谱对象(实体、关系、事实等)在计算机世界中富含语义的低维、稠密度、向量化表示。知识表示学习能够实现知识的统一精确表示、高效计算,是知识图谱自动化构建各阶段关键技术实现的重要基础,因而对于知识图谱的构建及广泛应用意义重大。然而,知识表示学习在将符号从符号空间到向量空间的嵌入表示过程中面临着“语义鸿沟”问题(即,在嵌入的过程中,出现的语义丢失或不等价现象),具体来讲,该问题主要表现在两个方面:一是现有的知识表示学习方法嵌入知识图谱对象的信息源不全,二是现有的知识表示学习方法在建模方式上采用粗粒度的知识表示学习。
面对以上问题与挑战,本文围绕知识图谱中知识表示新方法—知识表示学习,从嵌入对象的外部信息(多源信息)和知识表示学习建模方式两个主要视角进行了一些研究与探索,主要创新点和贡献总结如下:
(1)基于注意力机制包含实体关系数的知识表示学习方法。针对嵌入的知识图谱对象的信息源不全问题,本文从知识图谱对象的外部信息实体的关系数角度考虑,提出了一种基于注意力机制包含实体关系数的多源信息知识表示学习模型KRL_NER。在该模型中,先设计实现了一个由三层网络组成的子模型Learn NER,获取实体的差异性嵌入表示,该子模型网络结构简洁,能够高效地嵌入实体关系数外部信息;接着,通过注意力机制,使差异性嵌入表示对实体的基本嵌入表示(通过Trans E等模型获取)施加注意力,实现精确地融合新的实体语义。实体预测等实验表明KRL_NER模型在大规模知识图谱如FB15K上是有效的,实现了知识表示学习从信息源源头上缩小“语义鸿沟”。
(2)基于知识图谱对象匹配的知识表示学习方法。针对建模方式上粒度较粗问题,本文站在知识图谱对象(实体和关系)层面,基于局部封闭域假设,提出了一种基于知识图谱对象匹配的知识表示学习模型KRL_Match。该模型首先通过矩阵乘法运算开展知识图谱对象匹配,隐式地形成知识图谱对象匹配样本空间,并在该空间中形式化定义了一个求真知识图谱对象匹配问题;然后,基于局部封闭域假设,将该问题视为一个多分类问题,并通过softmax多分类方法进行求解;最终,获得了语义更加精确的知识图谱对象嵌入表示。实体预测、三元组分类等实验表明,通过这种多分类方法求解真知识图谱对象匹配问题(多轮多分类细粒度知识表示学习)的建模方式,KRL_Match模型在Hits@10等多个评测指标上取得了相对明显的优势。建模期间,本文以动态隐式负采样代替动态显式负采样,同等设置下,负采样时间可减少约7395.59s(~2.05h)、负采样存储空间可减少一半,显著地提升了负采样的时空效率。
(3)基于对比学习多标签类别分类的开放域知识表示学习方法。针对建模方式上粒度较粗问题,在开放域假设下,求解求真知识图谱对象匹配问题(具有一个已知真匹配的多标签分类问题),面临着标注困难、代价高所造成的标签匮乏困境难题,本文提出了一种基于对比学习多类别标签分类的开放域知识表示学习模型KRL_MLCCL。该模型通过真知识图谱对象匹配(正例)增广,使KRL_MLCCL练就了一种“拉近真匹配中知识图谱对象,推远假匹配中知识图谱对象”的回迁能力,摆脱了开放域知识表示学习建模时面临的标签匮乏困境;在此基础上,本文又提出了一种负例噪声过滤算法以增强这种能力。KG内开放域实体预测实验中,与同类模型和消融模型相比,KRL_MLCCL在Hits@k(1,3,10)评测指标上实现了全面超越,证明其具有良好的回迁能力。同时,有无负例噪声过滤消融实验表明,有负例噪声过滤功能比无负例噪声过滤功能,在Hits@k(1,3,10)、MRR和MR五种评测指标上均得到了提升,确实达到了增强模型回迁能力的效果。
(4)知识表示学习在篮球赛事知识图谱构建中的应用。针对现有知识图谱构建自动化程度不高、构建效率低下的问题,本文基于所提出的知识表示学习方法,在知识图谱构建中的知识获取、知识融合阶段,进行了知识图谱自动化构建工程落地方面的方法研究与探索。同时,本文还将构建出的篮球赛事知识图谱应用于篮球赛事集锦智能剪辑系统,参与精彩镜头筛选,提升赛事集锦生成的效率。该系统已经在央视等电视台及移动互联网平台得到了实际应用,增强了媒资系统采编播的及时性、实效性,取得了良好的实际应用效果,以及经济和社会效益。