关键词:
卷积神经网络
长短期记忆网络
RNA编辑位点
摘要:
RNA编辑事件是许多生物学活动中的一个关键环节。基因调控、RNA和蛋白质的调控等都与RNA编辑密切相关。因此,对相关基因的RNA编辑位点进行分析和研究,有助于我们更好地了解RNA编辑的形成和发展。目前有一些生物实验方法对RNA编辑位点进行分类,但非常耗时,成本很高,而且无法准确区分RNA编辑位点与新的SNP(单核苷酸多态性)位点。随着高通量测序技术的发展,研究人员开始通过机器学习方法对RNA编辑位点进行分类,当前一些研究采用逻辑回归等模型。而上述方法的数据处理过程需要特定的先验知识、繁琐的过滤步骤,耗时耗力;并且以上方法所采用的数据集均不一致,那么它们的分类结果也存在一定的偏向性。针对上述问题,本文进行了如下的工作:(1)重新收集大量RNA编辑位点数据,从REDIportal数据库中收集人类(hg19)118212个RNA编辑位点,从DARNED数据库中收集小鼠(mm10)84109个RNA编辑位点。(2)使用One-Hot编码对RNA编辑位点对应转录前的DNA序列进行处理,将其分别转换为两种维度的二进制向量,从而解决繁琐的过滤步骤的问题。(3)我们提出了三种深度学习模型识别RNA编辑位点:二维4层卷积神经网络模型,单层长短期记忆网络模型,卷积与长短期记忆相结合的神经网络模型。卷积神经网络可有效用于序列分析,把图像数据映射至输出变量,学习数据中变体的位置和尺度,使用卷积滤波器对其进行表征,而后校正线性单元,因此我们的二维4层卷积神经网络可用于具有空间或有序关系的数据;长短期记忆(LSTM)是一种特殊的循环神经网络(RNN),LSTM利用输入数据的顺序特征,在构建块之间循环连接,将记忆块连接到层中,每个块都有包含管理门的组件的块的状态和输出,维护序列本身的信息,序列信息保存在LSTM的隐藏状态中,跨越多个时间步长,因此我们搭建的单层长短期记忆网络可以结合上下文信息并定位过去输入的失真,这可以帮助解决序列分类问题。由上述可知两种神经网络模型的优点,我们将卷积神经网络与长短期记忆网络的优点相结合,搭建了CNN-LSTM模型,也取得了不错的效果。我们通过One-Hot编码将人类与小鼠的数据处理为1*4和1*8的向量,将其分别输入到我们搭建的深度学习模型中,得到准确率为98.70%、98.36%等,同时我们做了k折交叉验证,得到平均的F1-score为57.61%、57.42%等。实践证明,我们的模型具有良好的准确性、稳定性和可靠性。该模型为研究RNA编辑位点提供了一种新的思路,也为研究人员对RNA编辑位点进行分类提供了一种新的方法。