关键词:
机器学习
随机森林
XGBoost
慢性肺部疾患
摘要:
目的:本研究根据CHARLS2015年中国健康与养老追踪调查数据库,利用机器学习的方法对变量进行筛选,对所筛选出变量进一步用Logistic回归模型进行变量解释,以探求中老年人慢性肺部疾患(Chronic lung diseases)的相关因素,并进行分析解释,为该疾患患者的防治提供科学依据。方法:1.本研究将CHARLS2015年中国健康与养老追踪调查数据库的血检数据、人体测量、健康状况和功能等七个文件进行合并,根据对患者提问是否有医生告知其患有慢性肺部疾患为依据,将人群分为患病组和未患病组,经过删除缺失值在10%以上的观察单位,并对变量进行性相关性分析后,将相关系数>0.8的变量择一保留。2.本研究采用有监督的学习方法卡方分箱法对定量资料进行了分组处理,该方法可以使定量变量进行合理的分组。其原理是通过组间差异大、组内差异小的原则进行合并,并根据不同的分组数量对变量重要性(IV值)的影响,来确定最佳分箱方案。3.本研究按照4:1的比例将数据划分为训练集和测试集,并对训练集进行降采样处理,以达到样本的平衡,更适合建立模型。4.通过随机森林和XGBoost两种机器学习模型分别对训练集数据进行建模调参,根据特征重要性评分排名,结合向前变量选择法依次带入,以AUC面积作为评价指标对两个模型在训练集和测试集中的表现进行比较,并选择拟合效果较好的模型所筛选出来的变量,进一步用Logistic回归模型对较好机器学习模型所筛选出的变量进行进一步解释说明。结果:1.经过4:1的比例划分训练集与测试集后,训练集共有观察单位10195人,患病率为10.37%,测试集共有观察单位2549人,患病率为9.81%。2.经过降采样,对训练集数据进行处理后,使训练集中患者和非患者的数据达到平衡,得到训练集中的样本数量为2114人,其中患者:非患者为1:1。3.经过随机森林和XGBoost两种机器学习模型的建模并进行调参,以AUC面积作为评价标准发现,随着向前带入变量的数量逐渐增加,在评分指标到达平台期时,随机森林模型的评价指标要优于XGBoost模型。在两个模型均带入变量为90个时,随机森林模型在测试集中的AUC面积为0.745,灵敏度为0.752,特异度为0.738,优于XGBoost模型在测试集的评价指标,AUC面积为0.704,灵敏度为0.732,特异度为0.676。因此选择随机森林模型所筛选出来的变量进行Logistic分析。***回归分析结果:血检数据中血小板水平升高、低密度脂蛋白胆固醇与平均红血球容积的水平在中等水平时为疾患的保护性因素,OR值分别为0.705、0.643、0.543,C-反应蛋白水平升高、白细胞水平升高为疾患的危险性因素,OR值分别为1.86、1.632;在体测数据中呼气峰流速越高、身体质量指数水平越高为疾患的保护性因素,OR值分别为0.332、0.604,连续起坐时间越长为疾患的危险性因素,OR值为1.371;在健康状况与功能中患有哮喘、关节炎和风湿病、胃部疾病或消化系统疾病、心脏病、慢跑一公里有困难、为身体感到苦恼、对自身健康不满意程度、感到恐惧为疾患的危险性因素,OR值分别为14.067、2.158、1.905、1.532、1.570、1.348、3.345、2.222;家中现金越多为疾患的保护性因素,OR值为0.646,男性、上次去医院的目的是看病、参加新农保时疾患的危险性因素,OR值分别为1.641、1.482、1.288。结论:1.在分析大样本数据,变量数量过多的大型调查数据时,如果使用传统的Logistic回归模型进行分析的话,往往会导致模型系数不稳定,且耗时长,效率低。因此,先使用随机森林模型选变量,提高模型的效率,再利用Logistic回归模型对筛选后的变量进一步分析,可提高模型的解释性。2.本研究发现慢性肺部疾患与多方面因素存在不同程度的联系。其中合并其他疾病,如哮喘,关节炎或类风湿性疾病,胃部疾病或消化系统疾病,以及心理状态影响较大。因此,在疾病的治疗过程中,应全面的对患者多方面情况予以关注,多措并举,从而提高治疗效果,以及患者的生活质量。