关键词:
缺血性脑卒中
生物信息学
机器学习
GEO数据库
LASSO
SVM-RFE
核心基因
摘要:
目的本研究旨在通过生物信息学和机器学习方法筛选并验证缺血性脑卒中(ischemic stroke,IS)可能的关键风险基因,并探讨这些基因的相关病理生理机制,寻找潜在IS治疗靶点。方法通过检索基因表达综合数据库(Gene Expression Omnibus,GEO)获得来自人类IS患者和健康对照的2个转录组数据集(GSE122709,GSE140275),对数据集GSE122709中的mRNA进行差异表达分析,然后,对差异表达基因(differentially expressed genes,DEGs)进行相关基因本体论(gene ontology,GO)、京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)和疾病本体(disease ontology,DO)富集分析。通过最小绝对值收敛和选择算子(least absolute shrinkage and selection operator,LASSO)和支持向量机-递归特征消除(support vector machines-recursive feature elimination,SVM-RFE)两种机器学习算法筛选关键基因,并在数据集(GSE140275)中进行验证。结果共鉴定出378个DEGs(176个上调基因和202个下调基因)。通过GO,KEGG富集分析发现DEGs主要与炎症反应、免疫调节、COVID-19、传统IS危险因素等相关。DO富集分析发现DEGs与妇科肿瘤疾病相关。LASSO和SVM-RFE 2种机器学习算法共同识别的基因TVP23C、B3GAT1被确定为IS的特异风险基因。验证数据集分析后发现TVP23C、B3GAT1的IS诊断价值具有显著意义。结论TVP23C、B3GAT1可能是IS相关的关键风险基因。结合B3GAT1的表达分析,提示B3GAT1可能通过调控AMRA谷氨酸受体参与IS缺血脑损伤,为IS的早期诊断和治疗提供理论参考和科学依据。