关键词:
虚拟筛选
迁移学习
图神经网络
配体活性
虚拟筛选平台
摘要:
药物虚拟筛选旨在药物发现过程中使用计算机技术从化合物库中筛选出具有生物活性的小分子,从而大幅提高先导化合物的发现效率。药物分子可天然表示为图的结构,分子中的原子表示为图的节点,原子间的键表示为图的边,可以利用图神经网络端到端学习多层特征表示。针对新兴或者潜在的药物靶点进行药物开发是研究的热点,但虚拟筛选模型的成功往往依赖于大量的数据样本,当已知活性配体样本信息不充分时,配体虚拟筛选难于得到好的预测性能。迁移学习通过借助源域丰富的样本信息,适合解决配体虚拟筛选研究中样本数量不足的问题。因此,本文提出了一种面向药物虚拟筛选的图神经网络迁移学习方法TL-MGNN,实现了样本信息不充分下靶向G蛋白偶联受体(GPCR)的配体生物活性预测和自动端到端的分子指纹生成。TL-MGNN由两个连续的步骤组成:第一步,在具有丰富样本的源域数据集上预训练分子图神经网络(MGNN)模型;第二步,在目标域上对MGNN模型进行微调,得到预测结果。我们在54个GPCR目标域数据集上进行了实验,这些数据集涵盖了大部分人类子家族。该方法与其他几种图神经网络的方法进行了比较,实验结果表明,我们的TL-MGNN方法在大部分数据集上都取得了最佳性能,显著优于WDL-RF等多种图神经网络方法。其原因是当配体样本信息不充分时,WDL-RF,attentive FP,GIN,Weave和MPNN这些神经网络模型很难达到收敛,而我们的TL-MGNN方法可以通过迁移学习来利用源域丰富的样本信息,因此获得了更优的性能。此外,TL-MGNN与组合了迁移学习的WDL-RF方法(TL-WDL-RF)比较,在r和RMSE平均提升了11.96%和3.69%,是因为TL-MGNN方法在图神经网络中不仅考虑了配体分子的原子特征信息,还加入了键的信息,因此能够进一步提升模型性能。另外,本文探究了目标域配体样本个数对TL-MGNN模型性能的影响,结果表明更多的目标域训练样本能够显著提升模型性能。最后,我们还探究了源域样本数量对TL-MGNN模型性能的影响,结果显示,当源域的配体样本数量增加时,大部分数据集上的模型性能都得到了提升。为了用户可以更好使用我们团队开发的多个药物虚拟筛选方法,本文开发了基于相同框架的多个虚拟筛选平台,包括图卷积网络迁移学习方法TL-MGCN、多任务学习方法MTR-GL和MTR-ISLR。平台基于Windows系统下的Apache+Mysql+PHP搭建完成,主要功能是实现靶向GPCRs的配体分子活性预测以及生成对应的分子指纹。本文采用HTML和CSS对平台页面进行设计,基于Python程序实现核心的虚拟筛选算法,并通过PHP程序实现前台与后台的交互,最后将预测结果返回给用户。另外,本文还考虑了平台的安全性设计,主要包括对用户重复操作的限制、输入格式的判断和防止XSS攻击等。同时,我们开放了所有数据集和代码。到目前为止,越来越多的研发团队开发了众多的药物筛选平台及软件,实际上真正免费开源的工具数量很少,因此这些虚拟筛选平台对于助力药物开发具有一定意义。