关键词:
子痫前期
生物信息学
机器学习
差异表达基因
摘要:
目的:通过生物信息学和机器学习算法筛选并验证子痫前期(Preeclampsia,PE)的潜在关键基因,揭示可能的分子机制,为临床上PE的诊断、预防及治疗提供思路。方法:首先从基因表达综合数据库(Gene Expression Omnibus,GEO)下载PE基因芯片GSE10588、GSE66273、GSE30186数据集。运用R语言的“limma”包筛选出PE基因芯片GSE10588数据集的差异表达基因(differentially expressed genes,DEGs),并对其进行功能、通路的富集分析。通过最小绝对值收敛和选择算子(least absolute shrinkage and selection operator,LASSO)及随机森林(Random Forests,RF)两种机器学习算法对DEGs进行降维处理,进一步筛选候选关键基因,然后在PE基因芯片数据集(GSE66273、GSE30186)进行验证得到关键基因,对其相关性、表达情况以及对PE的诊断效能进行可视化分析,同时进行基因本体论(gene ontology,GO)、京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)以及基因集通路富集分析(Gene Set Enrichment Analysis,GSEA)。最后通过RT-PCR分析13例PE患者和11例正常单胎孕妇的胎盘及血清中关键基因的表达情况,验证关键基因是否与生信分析表达一致,并对关键基因与临床特征进行相关性分析。结果:首先,基于GSE10588数据集获得265个DEGs。功能富集分析表明,DEGs的生物学功能主要与缺氧、氧化应激以及促性腺激素的分泌调节等有关,涉及肾素-血管紧张素系统、铁死亡以及Notch、HIF-1、AMPK、IL-17等信号通路。其次通过机器学习算法得到18个候选关键基因,相关性分析显示这些基因之间有协同作用。通过GSE30186、GSE66273数据集对18个候选关键基因进行验证,得到4个关键基因:GCLM和EVI5,LEP和SYNPO2L。相关性分析表明SYNPO2L、GCLM、EVI5均与LEP负相关,SYNPO2L、GCLM、EVI5则相互正相关;在PE中仅LEP高表达,EVI5、GCLM、SYNPO2L低表达;ROC曲线分析显示:EVI5、GCLM、LEP、SYNPO2L诊断PE的AUC值分别为0.733、0.735、0.880、0.679,而关键基因联合诊断PE的效能强,AUC为0.889。GO功能分析显示,它们的功能主要富集在血管直径调节、细胞对碳水化合物刺激的反应、循环系统中血管形成的过程、酸性氨基酸连接酶活性、RAB GTPase结合、激素受体结合等。KEGG及GSEA通路富集分析显示关键基因调控通路可能涉及铁死亡、谷胱甘肽代谢以及AMPK、JAK-STAT和脂肪细胞因子等信号通路。最后RT-PCR验证关键基因的表达:与对照组相比,PE组胎盘中SYNPO2L、GCLM低表达,差异有统计学意义,而EVI5、LEP表达较低,但差异无统计学意义;PE组血清中EVI5和LEP低表达,差异有统计学意义,而SYNPO2L表达较低,GCLM表达较高,但差异均无统计学意义。关键基因与临床特征相关性分析显示:EVI5、GCLM、SYNPO2L、LEP均与PE患者的血压、新生儿体重无相关性。结论:1基于生物信息学分析和机器学习算法确定了与PE密切相关的4个关键基因(EVI5、GCLM、SYNPO2L、LEP)。2关键基因可能通过铁死亡、谷胱甘肽代谢以及AMPK、JAK-STAT等信号通路影响PE的发病机制,但仍需进一步研究阐明具体机制。3通过在PE患者和正常孕妇血清、胎盘组织中对关键基因的表达量进行验证,PE患者胎盘组织中GCLM、SYNPO2L低表达,血清样本中EVI5低表达,这与生物信息学分析结果一致,提示这三个关键基因具有成为PE的诊断生物标志物的潜能;PE患者血清中LEP低表达,这与生物信息学分析结果相反,需进一步研究其与PE的关系。