关键词:
负样本采样
浅层滑坡
集成学习
聚类集成
风险评价
摘要:
浅层滑坡是延边州的主要地质灾害类型,系统性的浅层滑坡风险评价是灾害治理的一个重要环节,可为研究区的防灾减灾工作和国土空间规划提供参考依据。从数据采集的角度而言,质量低的负样本在机器学习建模过程中会成为噪声数据,进而影响模型的泛化能力。同时机器学习模型对数据变化十分敏感,单一机器学习的分类效果会存在显著下降。另外,使用统计方法进行区域易损性需要人为赋予权重,这就使得评价过程主观性过强从而使评价结果不合理。
论文首先基于加权信息量法,结合支持向量机(Supporting vector machine,SVM)建模,进而选出质量较高的负样本,并通过共线性检测剔除冗余的评价因子。随后选取5个机器学习模型作为基础分类器,通过超参数优化进行模型调优,使用集成学习方法提升模型的泛化能力,以分类效果为首选指标,同时考虑拟合效果、计算效率,辅以统计指标,选出不同重现期下最可靠的评价模型。为了使得易损性评价流程具有客观性,选取了聚类模型进行评估,并基于相似度矩阵实现聚类模型的集成,提升了聚类模型的聚类质量和鲁棒性。最终使用矩阵分析法得到浅层滑坡的风险评价结果,主要的研究工作和取得的成果如下:
1.本文根据1971-2020年延边州11个雨量站的逐日降雨量数据,使用皮尔逊三型曲线获取每个站点的5年一遇、10年一遇、20年一遇、50年一遇的降雨强度,基于降雨强度和暴雨天数匹配相应的历史时期,以及土地覆盖和归一化植被指数(Normalized Difference Vegetation Index,NDVI)短时期无显著变化的特性,本文选择1990年、2000年、2010年、2015年匹配5年、10年、20年、50年重现期。
2.基于提出的加权信息量采样方法得到负样本的分布:信息量小于0区域967个,信息量大于0区域108个。根据皮尔逊系数的相关性分析结果,剔除降雨侵蚀力和地形湿度指数,将其他14个评价因子用于浅层滑坡危险性评价。
3.将逻辑回归(Logistic regression,LR)、决策树(Decision tree,DT)、极端随机树(Extreme-randomized tree classifier,ETC)、梯度提升决策树(Gradient boosting decision tree,GBDT)、极端梯度提升(Extreme gradient boosting,XGBoost)作为基础分类器,采用网格搜索优化、贝叶斯优化、模拟退火优化、学习曲线优化进行模型调优。使用同质集成(Bagging,Boosting)和异质集成(Averaging,Stacking)重组模型,得到了四个重现期下的最佳模型。
4.随着降雨强度的增加,高危险区在不断扩张。高危险区主要集中在敦化市中部、延龙图核心发展区的中部、汪清县东北部、珲春市中南部以及图们江兴边富民带。根据可解释性分析的结果可知,NDVI、到道路的距离、高程变异系数和地形粗糙度(Topographical roughness index,TRI)是最主要的孕灾因子。
5.使用三种聚类模型的聚类结果构造相似度矩阵,使用谱聚类实现聚类集成,延边州的易损性等级分布为:极高区占5.13%、高易损区占9.05%、中易损区占10.05%、低易损区占12.65%、极低区占63.12%。高易损区主要集中在敦化市中部、延龙图核心发展区中部、珲春市中部。聚类集成可以有效提高聚类质量和鲁棒性。最终根据矩阵分析方法得到延边州浅层滑坡的风险评价结果,随着降雨强度的增加,高风险区以较小幅度扩张,极低风险区更多向低、中风险等级转化。高风险区主要集中在:敦化市中部、龙井市西部和珲春市中部以及图们江流域附近的区域。