关键词:
PPI网络
集成学习
OpenTargets
癌症基因预测
摘要:
目的:癌症是一类由多种基因改变引起的复杂疾病,癌症基因在癌症的发生发展中起着至关重要的作用,但目前已知的癌症基因只占到人类基因组的2%,还有大量的癌症基因至今没有被发现。由于传统的实验方法发现癌症基因费时费力,因此本研究采用机器学习方法建立癌症候选基因预测模型,旨在为进一步了解癌症的发病机制和开发有效的癌症治疗手段提供参考。方法:从OpenTargets数据库筛选基因-癌症关联及基因通路、遗传关联、动物模型、RNA表达等变量,同时从DIP、HPRD、BIOGRID数据库下载蛋白质相互作用数据,采用CytoScape构建PPI网络并计算网络拓扑属性;从Uniprot数据库下载蛋白质序列信息,采用PROFEAT计算蛋白质序列结构和理化特征;从GO和KEGG数据库获取基因富集的GO术语和KEGG通路,整合基因上述四方面的特征,以CGC数据库中已知的癌症基因为结局变量,进行变量筛选和不平衡数据处理后,采用五种机器学习方法(RF、GBM、SVM、ANNs及NaiveBayes)预测潜在的癌症基因,将预测结果在CBioPortal数据库中进行验证,并以基因BLK和结肠癌为例进行具体分析。结果:模型最终纳入62个变量,其中PPI网络拓扑属性的重要性最大,且癌症基因与非癌症基因在平均路径长度、点度中心度、CNR、氨基酸组成、二肽组成以及GO和KEGG富集方面的分布有很大的差异。在上述四方面变量组成的15个模型中,模型PPI+OpenTargets+Sequence+Function性能在五种算法中均达到最佳,五种算法的AUC均值达到0.885,预测得到20种潜在的癌症基因,其在不同的癌症组织中均具有一定程度的突变和扩增。结论:本研究从多个权威生物医学数据库获取基因的多种属性,使用五种机器学习算法预测癌症候选基因,结果验证显示预测效果良好,进一步揭示了整合基因-癌症关联属性、PPI网络拓扑属性、序列属性和功能属性等多方面信息,应用机器学习方法预测癌症候选基因的可行性,可以为癌症基因的发现及癌症的基因治疗提供参考。