关键词:
癌症
多组学
深度学习
生存分析
预后预测
摘要:
研究背景及目的癌症(恶性肿瘤)是当今世界上最严重的健康问题之一,每年都有数百万人死于各种类型的癌症。其中,肝细胞癌(hepatocellular carcinoma,HCC)是最常见的癌症类型之一,HCC发病率高、死亡率也很高,给全球范围内的医疗保健体系和社会带来了巨大负担。在HCC的临床诊治过程中,准确高效的预后预测对于实施精准医疗和为临床决策提供有效支持至关重要。传统的生存分析方法,大多是根据少量的临床数据来进行预测,不能反映出癌症患者的全貌和复杂性,因此,对预测的精度会造成一定的影响;幸运地是,随着新一代高通量测序技术的不断发展,越来越多的组学数据被用于癌症患者的预后预测,这些海量组学数据为精准预测癌症患者的预后情况提供了坚实的基础和可能;同时,随着高通量组学数据的不断增长,机器学习、深度学习等人工智能方法也被逐步应用和强调。然而,目前整合深度学习方法和多组学数据以预测HCC预后的相关研究鲜有报道。这也意味着目前在HCC的治疗中,很难实现真正的个体化治疗,因为缺乏对每个患者独特情况的准确评估和预测。因此,开展相关研究,发掘深度学习方法和组学数据的潜力,实现HCC的预后预测,将为现代医学的精准医疗和个体化治疗提供有力支持。基于此,本文将构建一种新的能整合不同组学数据的深度学习模型预测方法,用以高效对HCC进行预后预测。该模型方法通过整合基因组学、转录组学和表观组学等组学数据,可为癌症患者提供更加精准的预后预测的同时对癌症进行亚型分类,从而为患者提供更加个性化的治疗方案。总之,海量多组学数据的整合利用和深度学习模型的不断发展和应用将对癌症的预后预测和精准治疗产生深远的影响。研究内容及方法1.在本研究中,深入探索了HCC的预后预测,纳入了包括基因组、转录组、表观组学等多组学数据,并对这些数据进行了有效地整合和利用,以提高HCC的预测精确度。2.为提高癌症患者预后预测的准确性和可靠性,本文创新性地构建了基于“监督”和“堆叠”的深度学习策略。首先,引入Cox模型进行联合监督,结合多种组学数据对癌症的预后进行综合评估。其次,将多个监督模块进行堆叠,以进一步提高模型的预测性能。最后,本研究还优化了模型的联合损失函数,以增强模型的鲁棒性和稳定性。通过这些创新性的方法,本研究构建了堆叠监督自编码器模型(stacked supervised auto encoder,SSAE),并使用癌症基因组图谱(the Cancer Genome Atlas,TCGA)数据库的LUAD患者的转录组学数据对SSAE模型预测性能进行模拟测试。3.使用Riken Japan(LIRI-JP)肝癌单组学数据集对模型进行应用研究,从单组学层面在各种方法上进行了预测性能的比较。4.使用TCGA-HCC患者的m RNA、mi RNA和甲基化多组学数据对SSAE模型预测性能进行测试,并对多组学数据的前融合、后融合进行了研究,进而构建了基于前融合的堆叠监督自编码器模型(early integration stacked supervised auto encoder,EI-SSAE)和基于后融合的堆叠监督自编码器模型(late integration stacked supervised auto encoder,LI-SSAE),从多组学层面在各组学数据上、各种方法上进行了预测性能的比较。5.在本研究中,利用整合的多组学数据,构建了一种基于深度学习的预测模型,用于预测HCC患者的预后情况。通过对模型输出的预后指数进行分析,将患者划分为不同的生存亚型,并针对每个亚型进行了生信分析和生存分析。研究结果1.在TCGA-LUAD数据集中(包含435例样本和25481个基因),测试集中相较于随机生存森林(CI=0.54、P=0.15)和Deep Surv(CI=0.55、P=0.10),SSAE有更高的一致性指数(CI=0.58)和更低的Log-rank P值(P=0.05)。在生信分析上,共筛选出40个差异基因,其中包括IGFBP1、ANXA13、MUC2、CIDEC、NTSR1、DSG3等为上调的代表性差异基因。在生存分析上,两种亚型的生存结局差异有统计学意义(HR:2.841,95%CI:1.907-4.232,Log-rank P<0.001)。2.在LIRI-JP肝癌数据集中(包含237例样本和13395个基因),测试集中相较于随机生存森林(CI=0.68、P=1.60E-02)和Deep Surv(CI=0.70、P=7.30E-03),SSAE有更高的一致性指数(CI=0.72)和更低的Log-rank P值(P=5.10E-03)。在生信分析上,共筛选出47个差异基因,其中包括G6PD、HSPA6、NDRG1、CDC20、BIRC5等为上调的代表性差异基因。在生