关键词:
关系学习
样本关系
特征关系
图结构
图神经网络
摘要:
一般的机器学习方法将每个样本视为一个独立的实体,模型的构建和模式的学习都是基于这些独立的样本展开的。但是现实世界的应用场景中,数据的价值不仅仅体现在其属性上,样本间还存在着无论是显式或潜在的复杂的关系。通过对关系的学习,可以更好地理解和利用数据中的结构信息,有助于提高模型的性能,从而在各种应用场景中实现更精准的预测和决策。图作为一种自然表达关系信息的方式,广泛地用来表示包括物理学、化学、生物学、语言学和社会科学在内的多种领域的数据的结构信息,许多现实世界的应用也可以转化为基于图的计算任务。对于这些任务而言,有效地学习图的表示是核心问题。在过去几十年中,如何处理图关系数据的方法已经得到了广泛的研究和显著的发展。然而,在许多实际应用中,数据的显式关系可能存在噪声和缺失,有时甚至完全没有显式关系。因此,越来越多的研究者开始关注如何挖掘和利用样本间的潜在关系,以动态地学习样本关系图结构。在样本图关系学习中,对样本间潜在关系的挖掘不仅能够丰富样本信息,提升数据价值,还能增强模型的预测能力和鲁棒性。然而,现有方法在面对学习样本关系图的过程中,面临三个主要挑战:首先,如何充分挖掘样本特征间的潜在关系信息;第二,如何在学习样本关系图的同时,有效地联动学习样本关系、特征关系以及模型参数;最后,如何克服在单一欧氏空间度量下学习样本关系图的局限性。针对这些挑战,本文进行了深入的研究和探索,提出了有效的解决方案,并完成了以下主要研究工作。
(1)提出关系感知特征选择算法(Relation Aware Feature Selection Method,ERASE),专注于解决在学习样本关系图的过程中,特征间潜在关系信息挖掘不足的问题。在研究过程中,借鉴特征选择领域中将潜在特征关系以树状结构进行高效组织的方法,从特征选择的角度探索了同时学习潜在样本关系图结构和特征关系树结构的可行性。该算法成功实现了在单一框架内同时学习样本间潜在的图结构和特征间的树结构,并提出了一种创新的基于关系的序列浮动选择机制,以充分利用从样本图和特征树中提取的关系信息,有效选择出高质量的特征子集。在多个领域的不同数据集上的实验和统计分析结果表明,与其它基线方法相比,同时进行样本图学习的ERASE在特征选择方面具有明显的优势。通过消融实验,进一步验证了学习得到的样本关系和特征关系有助于进行特征选择。这些实验结果强有力地证明了样本关系和特征关系的学习可以在一个统一的框架内同时进行,相互促进以提升学习效果,为本文后续研究奠定了坚实的基础。
(2)提出复合图神经网络算法(Composite Graph Neural Network,CGNN),该项工作专注于探究如何在学习样本关系图的过程中联动学习样本关系、特征关系、模型中的参数。CGNN的研究思路承接了ERASE中探索的潜在样本图结构和特征树结构学习思路,进一步提出了复合图结构,以便将样本间的关系和特征间的关系统一建模。与其它图神经网络方法相比,在复合图神经网络的学习框架中,它能够从多个角度对多个复合图进行学习,并且在每个复合图的学习过程中同时学习样本关系、特征关系、神经网络中的参数,以保证模型对特征噪声具有鲁棒性。实验结果证明,该算法在多个不同领域的基准数据集上均取得了优异的成绩,同时显示出了鲁棒性和可扩展性。
(3)提出联合空间图学习的图神经网络算法(Joint-Space Graph Learning Method for GNNs,JSGL),该项工作专注于探究如何克服在学习样本关系图的过程中,由于使用单一的欧氏空间度量而存在的局限性问题。研究过程中,首先分析了包括本文提出的ERASE和CGNN方法在内的众多方法在学习潜在样本关系图时,其默认使用单一欧氏空间度量而存在局限性的原因。然后,详细分析了这种局限性可能导致存在困惑节点的情况,并给出了关于困惑节点的具体定义。接下来,基于对困惑节点的研究,提出了一种能够在实际样本关系图学习过程中有效识别困惑节点的方法,并给出了相关的概率下界。最后,提出了一个端到端的潜在样本关系图学习框架,它不仅可以在欧几里得空间中学习图,还可以在双曲空间中精炼困惑节点周围的拓扑结构。与众多现有的基线方法相比,实验结果展现了该方法优异的性能优势。