关键词:
NPC
机器学习
相关基因
免疫浸润
BLK
OSBPL10
预后
摘要:
目的:利用机器学习的方法筛选鼻咽癌(nasopharyngeal carcinoma,NPC)相关基因。通过生物信息学的方法分析筛选出的相关基因在NPC中的表达情况,免疫浸润情况,参与的分子功能与信号通路,预后情况等。通过实验进一步验证相关基因在NPC中的表达,并分析与临床病理因素的相关性。探究相关基因在NPC发生发展中的作用。为日常的NPC病理诊断提供新的方法和思路,并寻找NPC新的治疗靶点,为NPC的治疗提高新的分子依据。方法:1、下载GEO数据库NPC基因表达数据,利用R语言进行缺失值的合并数据,并使用SVA包进行数据处理及去除批次效应。Limma包筛选差异基因,D AIVD数据库进行差异基因的GO和KEGG分析。2、利用R语言和Python构建LASSO、SVM-RFE、m RMR、XGBOOST机器学习模型用来筛选NPC相关基因,选取四方法的交集基因。构建神经网络模型以确认相关基因在NPC中的诊断效能,并选取独立的数据集进行验证。3、利用R语言分析GEO数据库中相关基因在NPC中的表达情况。GEPIA数据库分析相关基因的分子结构,理化性质;STRING数据库分析相关的蛋白与蛋白互作网络,利用Cytoscape软件进行互作网络的可视化与评分;DAIVD数据库进行相关基因的GO和KEGG分析;利用TIMER2.0数据库计算NPC基因表达数据的免疫浸润情况,对比NPC与鼻咽部良性组织的22种免疫细胞的表达情况。分析相关基因与NPC免疫浸润的关系,并分析相关基因与6种关键免疫细胞的关系;在GEO数据集GSE120349中分析相关基因表达与NPC患者预后的关系。4、利用免疫组织化学的方法检测大理大学第一附属医院2013-2021年经病理确认的68例NPC和同期13例鼻咽部良性病变石蜡组织中相关蛋白的表达情况,通过整理患者的临床资料及随访信息,分析蛋白的表达与临床病理特征的关系。结果:1、合并了5个数据集的基因表达数据,并去除了批次效应与标准化。得到标本184例,通过Limma包筛选了181个差异基因,其中上调基因87个,下调基因94个;2、NPC的差异基因GO、KEGG分析显示DEGS富集在多种生物学功能和信号通路;3、利用LASSO、SVM-RFE、m RMR、XGBOOST四种机器学习的方法将BLK(B Lymphocyte tyrosine Kinase,B淋巴酪氨酸激酶)、OSBPL10(oxysterol binding protein like 10 Gene,氧固醇结合蛋白样10)筛选为NPC相关基因,神经网络模型中的在测试集中AUC值达到0.9。利用独立数据集中绘制BLK、OSBPL10基因表达点状图,计算P值,其中BLK基因P<0.01,OSBPL10基因P<0.001,差异具有统计学意义。验证ROC曲线AUC值分别为0.95和0.967。4、生信分析显示BLK、OSBPL10在NPC中低表达,GO、KEGG分析显示BLK、OSBPL10与多种生物学功能和信号通路联系紧密,免疫浸润分析BLK、OSBPL10与多种免疫细胞联系紧密,结果显示BLK的表达与肿瘤纯度呈负相关,与B细胞呈正相关,与CD8+T呈正相关,与CD4+T细胞呈正相关,与巨噬细胞呈正相关,与中性粒细胞呈正相关,与树突细胞呈正相关。OSBPL10的表达与肿瘤纯度呈负相关,与B细胞的表达无相关关系,与CD8+T的表达无相关关系,与CD4+T细胞呈正相关,与巨噬细胞呈正相关,与中性粒细胞呈正相关,与树突细胞呈正相关。GSE120349预后分析中BLK低表达与NPC较差的预后相关,而OSBPL10与NPC预后无关。5、免疫组织化学结果显示BLK、OSBPL10在NPC中较鼻咽部良性病变组织均低表达,差异P值均小于0.05,分析BLK、OSBPL10表达与临床病理资料发现,BLK的表达与NPC患者的病理类型和民族存在相关关系,而OSBPL10与NPC患者的EBV感染、AJCC临床分期、Ki67表达存在相关关系。6、患者预后相关因素分析中NPC生存状态与患者EBV感染状态,N分期存在负相关关系,与民族存在相关关系。且BLK、OSBPL10的表达与患者预后相关,低表达代表较差的预后。结论:本研究利用机器学习的方法筛选出NPC相关基因BLK、OSBPL10,生物信息学分析BLK、OSBPL10与免疫细胞联系紧密,基因与多种基因联系紧密并参与丰富的生物学过程与信号通路,与肿瘤免疫微环境联系紧密。经实验验证,BLK、OSBPL10在NPC中功能丰富,差异表达明显,可做为NPC的相关诊断标志物。