关键词:
分类
集成学习
特征处理
多目标模型优化
前列腺疾病辅助诊断
摘要:
随着人类社会数字化程度的提高,各个领域需要应对的分类问题越来越复杂,样本识别难度越来越大。由于多样化的信息无法得到有效利用、信息之间的非线性关系无法得到充分挖掘,传统的基于人类知识经验积累的决策方式与新时期对决策效率和精度的需求之间的矛盾日益明显,不少基于数据分析的新技术和新方法在解决现实管理决策问题中发挥着越来越重要的作用。集成学习,作为机器学习的重要分支,通过训练并结合多个学习器来应对同一个问题,能够显著提高模型的预测性能,已被广泛用于解决生产管理、运营管理、医疗健康管理等各种领域的分类问题。然而,现实分类问题的复杂性以及数据驱动决策对模型性能产生的多元化需求给集成分类建模带来了很大的挑战,对此,当前集成分类模型学习方法尚存在如下问题有待解决:(1)现实分类问题可利用的决策信息通常存在不完全性,现有方法采取常规特征选择手段通常致力于以更低的特征维度取得好的预测效果,未考虑如何将有限的决策信息在集成建模中发挥最大效用,尚缺少专门针对改善集成模型性能的特征处理方法;(2)现有集成分类方法多面向二分类问题情景设计,对复杂的不均衡多分类决策场景适用性差,且模型分类性能优化以模型准确性为主,无法确保模型取得最佳的泛化性能;(3)现有集成分类方法虽然预测性能好但模型复杂度高,无法应对一些对模型可解释性要求高的现实问题,且当前集成模型可解释性的研究尚未实现模型分类性能和可解释性的均衡以及模型决策过程的可视化。
为应对现实分类问题对模型性能的多元化需求,本文从集成分类模型的特征空间优化、集成分类性能导向的多目标模型优化、集成模型可解释性导向的多目标模型优化三方面展开,研究面向多维性能优化的集成分类模型学习方法。在分析已有研究不足的基础上,基于数据驱动决策理论、集成学习理论和多目标优化理论等提出三种方法,并将其应用于解决实际的分类决策问题。具体来说,本文研究工作主要包括以下几个方面:
第一,面向集成分类模型的特征空间优化方法研究。考虑到现实分类问题所获取数据通常存在的特征空间局限性,为满足集成建模在特征准备层面的需求,本文提出了一种面向集成分类模型的特征空间优化方法。该方法首先通过特定的特征生成机制进行弹性的特征空间扩展,然后以提升集成模型预测性能为目标进行特征组合寻优。为提高计算效率,先通过模拟CART决策树生成过程来对扩展后的特征空间根据特征重要性进行初筛,接下来引入基于特征维度聚类的集成学习算法评估特征组合,并利用一种贪婪优化算法确定最优特征数量。其中,特征组合评估算法通过在样本和特征层面创建多样性来模拟集成模型的构建,特别在特征层面,通过对特征维度进行聚类并提出特征均匀抽取法,以确保每个基学习器所利用的特征空间的差异性和完整性。实验基于多个标准数据集对方法性能进行测试,验证所提出的特征空间优化方法对提升集成模型预测性能的有效性。
第二,考虑多分类情景的多目标动态集成分类方法研究。为了得到准确性和泛化性能好且能应对复杂分类问题的集成模型,本文提出了一种考虑多分类情景的多目标动态集成分类方法。该方法将多个类别的分类视为多个样本识别任务,设计了一个基于前馈神经网络拓扑结构的集成学习框架。所提出的集成学习框架以特征层、基学习器层、集成模型层为骨架,以层之间的加权连接为框架中数据传输的基础,将动态集成模型学习过程视为一个以基学习器预测精度、基学习器多样性和模型的综合复杂度为优化目标的三目标优化问题,并结合对集成模型多目标优化理论的分析和扩展研究,提出了改进NSGA-Ⅲ的智能优化算法,通过多目标迭代优化过程同时为多个分类任务计算最优的集成模型。实验基于多个标准数据集对方法性能进行测试,通过引入几种经典的机器学习算法作为基学习算法进行集成模型构建,验证了所提方法应对复杂不均衡多分类的有效性,以及所提特征空间优化方法与该方法联合使用的建模效果。
第三,基于Stacking的可解释多目标集成分类方法研究。为了得到准确且可解释的集成分类模型以更好地辅助现实决策,本文提出了基于Stacking的可解释多目标集成分类方法。该方法首先利用多目标优化对集成模型准确性和集成复杂度进行同时优化得到精简且准确的集成分类模型,然后利用所设计的预测规则提取方法对最优子集成进行规则提取。为了使低复杂度的集成模型取得好的预测效果,在模型结合阶段引入了基于Stacking的模型集成方法,此处首次将机器学习算法随机森林引入Stacking模型中用作元学习器。实验基于多个标准数据集对方法性能进行测试,通过与其他经典机器学习算法比较验证所提方法的准确性和可解释性,证明了该可解释集成学习方法不仅能够得到好的预测结果,还能通过可解释规则的提取将预测过程可视化;同时验证了所提特征空间优化方法与该方法联合使用的建模效果。
最后,选用医疗领域疾病管理决策中的分类问题作为应用实例,结