关键词:
数据流挖掘
特征演化
类不平衡
在线学习
代价敏感学习
摘要:
特征演化流是指特征空间以任意形式动态变化的数据流,其中同时存在数据类别分布不平衡的现象,这给数据流分类任务带来巨大挑战。在线学习是数据流挖掘的有效工具之一,但目前鲜有在线学习框架可同时处理数据流中特征演化和类不平衡问题。因此,提出一种类不平衡的特征演化流在线学习方法。首先,对实例特征进行划分,并将分类器分别投影至对应特征空间,结合在线被动-主动算法分别训练不同特征空间下的分类器;然后,将代价敏感指标最小化问题融入模型在线优化目标函数中,根据不平衡率定义新的代价敏感因子,动态调整类别权重以解决类不平衡问题;最后,为提高分类器泛化性能,利用变异系数筛选出重要特征,从而对分类器稀疏截断处理。大量仿真实验结果表明,该方法在11个UCI数据集上均获得较高的准确率、几何均值和马修斯相关系数,分别平均提升约0.021、0.058和0.072,验证了所提方法对特征演化流具有良好的自适应能力,同时能有效处理特征演化流中的类不平衡问题。