关键词:
生物序列
自然语言处理
表征学习
预训练模型
自动化特征工程
摘要:
基因组被誉为“生命之书”,大自然通过生物序列书写描绘整个生命过程。对生物序列的研究有助于从分子视角探索生命本质现象。生物序列与自然语言具有很大的相似性,以自然语言处理技术为基础来揭示“生命之书”的含义,有助于提供对生物序列所编码的功能和结构的全面理解,并大大促进生物序列分析研究的发展。自然语言处理和机器学习的性能很大程度上取决于数据表征的质量。核酸和蛋白质序列是两类最重要的生物大分子序列。核酸和蛋白质分子序列种类繁多,但序列组成结构却高度相近,不同序列的表征编码方式基本相同。因此,本文从核酸和蛋白质序列中选择几种典型的分子作为生物序列表征学习的研究对象,包括植物R蛋白、m RNA、nc RNA-蛋白质相互作用(NPI)及抗冠状病毒肽(ACVP),以传统特征工程、静态表示、动态预训练表示以及自动化特征工程为技术手段,对生物大分子的序列表征学习进行了研究。主要开展的研究内容概述如下:
(1)基于成对能量含量的植物R蛋白预测方法。植物R蛋白能识别病原微生物分泌的效应蛋白,并引发对病原微生物侵染的免疫反应,准确识别植物R蛋白是植物病理学的一个重要研究课题。现有计算模型大多关注动物蛋白分子而缺少植物蛋白的研究,且其中的蛋白质序列表征学习方法主要依赖氨基酸频率特征,忽略了氨基酸之间的特性。本文提出了一种基于传统特征工程的植物R蛋白预测模型Stack RPred。首先,引入了氨基酸残基的成对能量含量矩阵,并以此提出了两种植物R蛋白表征学习方法;然后,将获得的序列表征信息输入所构建的双层Stacking集成学习框架进行训练,以预测植物R蛋白质。五折交叉验证和独立测试集验证的准确率分别达到了97.5%和96.7%,表明Stack RPred方法是一种预测植物R蛋白的有效工具。
(2)基于多尺度可解释性的m RNA亚细胞定位预测方法。m RNA在基因转录后调控中起着关键作用,且是指导蛋白质生物合成的直接模板。然而,目前预测m RNA亚细胞定位的工作还很少,对m RNA序列表征学习方法的探索还有待进一步加强,尤其是,缺乏对可解释性方法的分析研究。因此,本文构建了一种可解释性的多尺度注意力机制的预测方法m RNA-CLA,用于预测多标签的m RNA亚细胞定位。该模型通过多尺度卷积网络层获得不同位置的序列特征,并利用自注意力层对每个序列产生的注意力权重,结合CNN层中提取位置权重矩阵,对模型进行了可解释性分析。特别是对不同位置的m RNA分子进行序列碱基分析,得到不同位置的序列的碱基特异性。从评估结果来看,m RNA-CLA方法提升了m RNA亚细胞定位的预测性能,同时,通过对m RNA序列进行可视化的分析,增加了模型的可解释性。
(3)基于图表征学习和社区检测的NPI预测方法。nc RNA-蛋白质相互作用涉及生命重要过程,探索nc RNA-蛋白质相互作用具有重要意义。现有方法多是通过探索nc RNA或蛋白质分子的序列或结构表征信息,而对它们之间相互作用的表征分析相对比较缺乏,尤其是应用GNN方法在预测NPI的潜力仍未得到很好的开发。为此,本文中提出了一个基于GNN表征学习方法的NPI预测模型。该模型是通过转化NPI预测为子图二分类预测问题来开展研究。具体来说,首先利用两组结构化标签来区分两种不同类型的节点:nc RNA和蛋白质,从而缓解了图网络中过度耦合的问题。随后,根据图中节点的社区所属关系,初步优化nc RNA和蛋白质的表征。此外,该模型应用了一种自注意力机制来保留图的拓扑结构,以减少池化过程中的信息损失。最后,分别在两个稠密图和两个稀疏图上进行了实验验证,实验结果表明,所提方法在稠密图上的预测准确率与现有方法相比表现最好,预测准确率均超过90%;在稀疏图中整体上也呈现出很好的实验性能。
(4)基于自动化特征工程的ACVP预测方法。COVID-19大流行正严重影响人们日常生活,基于序列表征学习策略开发ACVP预测模型有助于抗新冠病毒药物的研发。然而,尽管已经发现了很多的抗病毒肽(AVP)数据,但作为AVP成员之一,经过实验验证的ACVP样本仍然很少。此外,由于现有的预测方法多是凭经验选择特征和设置预测模型参数,容易产生主观偏差,使得模型训练愈发“昂贵”。自动化特征工程方法能对特征和模型进行优化,有助于缓解上述问题。因此,本文提出了一种基于自动化特征工程的ACVP预测方法ACVP-Auto。该方法首先对AVP和ACVP序列进行多视角表征学习,然后,引入贝叶斯技术优化搜索空间以选择特征和模型的最佳组合,借助AVP数据集和少量的ACVP数据构建训练模型。本文通过构建自动化的机器学习模型,不仅提升了模型预测性能,而且能有效避免低效的人工经验超参设置,有助于规模化推广。