关键词:
CRSwNP
GEO数据库
机器学习
WGCNA
摘要:
目的:
本研究基于加权基因共表达网络分析(WGCNA)和机器学习的方法,利用现有数据,挖掘出慢性鼻-鼻窦炎伴鼻息肉(CRSwNP)疾病相关的关键基因(Hub基因),分析Hub基因在CRSwNP中的表达情况和可能的分子机制,探讨Hub基因在CRSwNP中的生物学功能及意义,并对Hub基因进行RT-q PCR实验验证,为寻找治疗靶点提供理论依据。
方法:
1.从GEO数据库下载GSE136825、GSE72713、GSE36830三个数据集,结合现有测序数据集,划分为分析组和验证组两组。针对分析组,利用WGCNA识别出与CRSwNP正相关度最高的模块(The module with the highest positive correlation with CRSwNP,TMHPCWC)基因和负相关度最高的模块(The module with the highest negative correlation with CRSwNP,TMHNCWC)基因,结合差异分析筛选得到的差异基因,取交集得到TMHPCWC和TMHNCWC中具有差异性的基因,并绘制韦恩图和提取数据集。
2.利用机器学习算法(LASSO、Boruta、SVM-RFE),分别对TMHPCWC和TMHNCWC中具有差异性基因数据集进行筛选,获得候选Hub基因;基于候选Hub基因在验证组中的表达水平情况,识别出Hub基因。
3.通过GO和KEGG富集分析,探究TMHPCWC和TMHNCWC中具有差异性的基因相关分子通路及生物学功能;以Hub基因表达水平中值,将分析组内鼻息肉样本分为Hub基因高表达组和低表达组,通过GSEA分析,探究Hub基因高表达组富集上调的GO条目和KEGG通路情况。
4.通过免疫浸润分析,探究鼻息肉组和对照组组间免疫浸润差异、Hub基因与免疫细胞的相关性。
5.采用实时荧光定量聚合酶链反应(real-time quantitative polymerase chain,RT-q PCR)法,探究Hub基因在息肉组和对照组中的表达水平情况。
结果:
1.本研究利用WGCNA筛选分析组数据集识别出8个特征模块,其中MEblack为TMHPCWC,相关系数为0.54,包含1011个基因;MEbrown为TMHNCWC,相关系数为-0.74,包含1154个基因。同时,对分析组数据集进行差异分析筛选出772个差异基因(DEGs),其中426个明显上调,346个明显下调。将DEGs与MEblack取交集得DEG-MEblack,包含207个基因;将DEGs与MEbrown取交集得DEG-MEbrown,包含395个基因。
2.利用三种机器学习算法筛选DEG-MEblack,LASSO识别出11个特征基因,Boruta筛选出61个特征基因,SVM-RFE筛选得到32个特征基因,取三者交集得7个候选Hub基因,并利用验证组验证,最终确定了4个Hub基因HMOX1、PXDN、SCG2、CYSLTR1。同时,以相同的方法筛选DEG-MEbrown,LASSO识别出19个特征基因,Boruta筛选出86个特征基因,SVM-RFE筛选得到83个特征基因,取三者交集得10个候选Hub基因,并利用验证组验证,最终,确定了6个Hub基因MCOLN3、CYP2J2、IL4R、OSMR、ADAM28、PRB3。其中,相对于对照组,在鼻息肉组中表达水平上调的有HMOX1、PXDN、SCG2、CYSLTR1、IL4R、OSMR、ADAM28,即为高表达的Hub基因;表达水平下调的有MCOLN3、CYP2J2、PRB3,即为低表达的Hub基因。
***富集分析,发现在DEG-MEblack中,生物学过程(BP)主要有白细胞介导的免疫、免疫反应激活等;细胞组成(CC)包括质膜外侧、内吞囊泡等;分子功能(MF)与免疫受体活性、趋化因子受体活性等有关。在DEG-MEbrown中MF主要与信号受体激活剂活性等相关。KEGG通路分析,发现在DEG-MEblack中确定的通路与细胞因子-细胞因子受体相互作用、趋化因子信号通路、金黄色葡萄球菌感染等相关;DEG-MEbrown中鉴定的通路与细胞因子-细胞因子受体相互作用等相关。
4.通过GSEA分析,发现Hub基因高表达组富集上调的GO条目有适应性免疫反应(SCG2、PXDN、OSMR、HMOX1),免疫应答调节信号通路(SCG2、PXDN、OSMR)。SCG2、PXDN、HMOX1的高表达组富集上调的KEGG通路有趋化因子信号通路、细胞因子-细胞因子受体相互作用通路、NOD样受体信号通路、自然杀伤细胞介导的细胞毒性。
5.鼻息肉组免疫细胞浸润分析中巨噬细胞M2、中性粒细胞和静息树突状细胞相比对照组为正显著相关。
6.相比于对照组,在鼻息肉组中,高表