关键词:
多特征学习
药物-靶标相互作用
深度神经网络
表征学习
摘要:
药物-靶标相互作用预测是药物研发过程中的关键环节之一。传统的实验方法往往依靠大量的先验知识、生物化学实验和临床实验,才能阐明这种潜在的药物-靶标相互作用关系。这是一个需要耗费大量财力、人力、物力的过程。因此,基于计算方法的药物-靶标相互作用预测是一个迫切需要解决的关键研究问题。近几年,如何设计新的计算方法使其具有较高的预测准确率受到了研究者的广泛关注。随着深度神经网络模型在各个领域取得了巨大的成功,许多工作开始专注于研究通过深度学习方法去预测药物和靶标之间的相互作用。然而,面向药物-靶标相互作用的神经网络方法还存在诸多的挑战:(1)如何通过神经网络模型实现对药物数据和靶标数据的内容关联,以提高对药物和靶标数据的多特征融合;(2)如何建立神经网络模型实现对药物数据和靶标数据的生物化学语义理解,以提高对药物和靶标的深层表征;和(3)如何设计神经网络模型实现对药物-靶标相互作用的建模,以提高对该相互作用预测的能力。本文主要面向药物-靶标相互作用预测任务,开展其基于深度神经网络计算方法的研究和讨论。药物-靶标相互作用预测的计算模型是通过处理、分析药物和靶标数据,挖掘药物和靶标之间的关系,来预测某个药物-靶标对之间有无关联以及这种关联的程度。本文面向药物-靶标相互作用预测的挑战和研究内容,围绕不同任务背景,立足于多特征学习方法,从表达学习、生物信息语义理解、特征融合等方面开展研究,取得了以下成果:1.提出了一种基于门控-残差神经网络的药物-靶标关联预测方法,结合长短时记忆神经网络中的门控机制和残差网络中的残差连接,这两种神经网络中信息增强的信息处理机制,设计了一种新的用于信息选择和增强的网络模型,改进了对药物-靶标有无关联的预测。本文将提出的门控残差块作为基本单元,通过层级连接构成了门控-残差神经网络框架,并建立了基于门控-残差神经网络的药物-靶标预测模型。通过该模型的信息增强机制,学习并提取药物-靶标对的关联特征,以优化药物-靶标对有无关联的预测。实验表明,本文提出的基于门控-残差神经网络的计算方法不仅在药物-靶标对有无关联预测任务上表现出了良好的性能,还在多种分类任务上都表现出了较好的信息处理能力。此外,本文还通过实验分析了门控的残差块中多种不同门控函数对于该模块的影响。2.提出了一种基于多输入多特征表征的药物-靶标关联预测方法,将该任务定义为多输入任务,提取更多的药物-靶标关联信息,进一步地提升了药物-靶标相互作用的分类预测精度。该方法针对现有工作中,将药物数据和靶标数据简单组合作为模型输入而导致的关键关联信息丢失这一问题,建立多输入模型,并提出一种多特征表征的神经网络方法,来预测药物-靶标有无关联。该模型由表征学习和特征融合两部分组成,前者致力于通过卷积神经网络模型和全连接神经网络分别获取药物和靶标的深层表征;后者采用全连接神经网络层来融合药物和靶标的深层表征,以优化药物-靶标有无关联预测。实验表明,本文提出的基于多输入多特征表征的计算方法有效地提升了药物-靶标相互作用预测的精度,并成功地应用到了预测与阿尔茨海默病相关基因有关联药物的任务。3.提出了一种基于多注意力机制的药物-靶标结合亲和力预测方法,通过原子之间的相对位置信息建模了原子间的相关关系,并改善了对药物深层表征和靶标深层表征相互作用的建模,从而提高了对药物-靶标结合亲和力的预测。针对现有方法(1)忽略原子之间的相关关系;和(2)由于简单拼接药物-靶标深层表征导致融合信息缺失这两个不足,本文设计了一个多注意力框架,首先,在化合物表征阶段,通过增强原子间的相关关系来充分建模复杂化合物;其次,通过多头注意机制建模药物-靶标深层表征的相互作用特征,提高模型对药物-靶标结合亲和力预测能力。本文经实验证明了编码原子间的相关关系和建模药物-靶标深层特征的相互作用都可以进一步提高药物-靶标结合亲和力预测的性能。此外,本文将训练好的模型应用于新冠病毒相关基因和已批准药物的结合亲和力评分预测任务中,提供了一些计算模型实验结果作为参考。4.提出了一种基于多粒度编码和多尺度自注意力网络的药物-靶标结合亲和力预测方法,从编码方法和深度神经网络结构两个方面建模了化学基团之间的相关关系,提高了药物-靶标结合亲和力预测能力。编码方法方面,本文首先利用分词算法分别生成药物和蛋白质对应的多粒度编码词表;然后,通过该词表去编码药物和蛋白质序列中那些具有化学关键信息的化学官能团。深度模型网络结构方面,本文对多头自注意力机制进行不同的窗口大小分配,建立了多尺度的自注意力模型,从而获得了含有不同层次相关关系的药物和蛋白质深层表征。实验表明,本文提出的基于多粒度编码和多尺度自注意力网络的计算方法在药物-靶标结合亲和力任务上具有较好的效果。此外,多粒度编码和多尺度自注意力模型所学习的多种局部信息都被证明有利于药物-