关键词:
复杂对象
多示例多标记学习
图卷积网络
异质网络表示学习
协同矩阵分解
摘要:
多示例多标记学习(Multi-Instance Multi-Label Learning,MIML)是最近几年以来在机器学习领域比较热门的研究方向之一,多示例多标记学习算法已经被广泛应用于多媒体数据挖掘和生物信息学等领域,传统的监督学习算法可看作是多示例学习或者是多标记学习算法中的特例。进一步地,传统监督学习算法、多标记学习算法和多示例学习算法都可以视为多示例多标记学习框架中的特例。MIML框架通过建模由多个示例所构成复杂对象(包)的特征信息,这里的包或者示例被多个语义标签所标记,进而学习包、示例和标记三者的关系。尽管多示例多标记学习算法在很多领域取得了不错的效果,但由于特征表示能力有限,出现了性能瓶颈。如对于描述同一个对象的文本信息和图像信息,多示例多标记学习因为不能直接利用异质信息而造成信息缺失。
多示例多标记学习方法在设计模型时忽略了以下几个挑战:(1)目前的多示例多标记学习方法仅仅考虑了单种类型对象,不能直接对多类型对象直接建模。但多种类型的对象之间的相互联系是不可忽略的,因为这些联系里面可能包含了有用的信息,即复杂对象的标签不仅取决于其自身的属性,还可能取决于与其他类型的对象的连接信息。(2)虽然引入多类型对象可能能够提高包或者示例对象的表示能力,但存在的噪声也可能带来负面影响。(3)不同类型对象对包类型对象有着不同的重要程度,如何区分不同的权重从而提高包或者示例的表示值得去探索。(4)复杂对象的特征表示为浅层信息,且邻居节点的关系得不到充分挖掘。
针对上述提出的不足之处,本文基于异质信息网络建模的思路,利用异质信息以提高包和示例的特征信息表示。本文主要围绕多示例多标记学习框架,并结合矩阵分解、图卷积和网络表示学习等技术对复杂对象所组成异质多示例网络进行建模,提出两个有效算法,本文的主要贡献包括:
(1)针对现有的多示例多标记学习框架不能直接利用异质信息的问题,本文提出的基于协同矩阵分解的异质多示例多标记学习算法(Multi-Typed Objects Multi-View Multi-Instance Multi-Label Learning via Joint Matrix Factorization,简称M4L-JMF)不仅把多示例多标记学习框架扩展到利用多类型信息场景,还提出了一种可行的方法对复杂场景下的包对象进行建模学习,充分挖掘了其他类型对象与包的关联信息。具体地说,M4L-JMF首先利用矩阵分解技术获取到多个关系矩阵的低秩表示,在通过协同在异质信息网络中对象的低秩表示进行学习,然后在通过目标方程不断优化它们,通过集成项不仅使包层标记和示例层标记得到统一,还让包层的标记去指导示例层标记,本文还通过分别增加权重矩阵来区别对待同种类型对象和不同类型对象的权重。在Lnc RNA和Isoform数据集上的实验结果表明,M4L-JMF算法不仅能够有效融合其他类型对象信息以帮助提高包的特征表示,并且与多个对比方法相比较,本文提出的方法精度更高。
(2)针对目前大多数的多示例多标记学习算法只能学习到有限的线性表示,且只能学习到较为低阶的关系,导致了包或者示例表示信息能力有限的问题,本文提出了一种基于异质信息网络嵌入的方法(Deep Multi-Type Objects Multi-View Multi-Instance Multi-Label Learning,简称Deep M4L)对包、示例、其他类型对象和标记进行有效融合。网络嵌入技术不仅可以融合多类型对象信息,并且可以学习连接节点的特征表示。Deep M4L首先构建属性异质网络去编码不同节点的类内和类间关系,然后通过使用示例嵌入网络层去学习包或者示例的复杂非线性表示。接着为了让示例层和包层在跨视图上的标记一致,Deep M4L利用多示例池化层能够自然产生包层标记。最后,通过目标方程去融合包层和示例层的标记信息并迫使它们在标记空间中一致。Deep M4L在多个公开数据集上的实验结果表明,无论是在包层的预测效果,还是在示例层上的预测效果,本文提出的方法与多个流行的方法相比较,Deep M4L能够有效地学习复杂对象的特征表示,进而提高了分类的精度。