关键词:
移动恶意应用检测
类别不平衡分类
重采样
大数据
MapReduce
摘要:
随着移动设备的普及和移动应用用户数量的爆发式增长,移动智能终端安全面临着巨大挑战。机器学习作为人工智能领域的重要方法,近年来在通过分析网络行为进行移动恶意应用检测的研究中得到了广泛应用。然而,由于网络流量天然存在的类别分布不平衡特性和持续到达特性,给机器学习模型训练带来了诸多困难与挑战。首先,在真实环境中,正常行为的网络流量数量要远远多于恶意行为的网络流量数量,这种类别不均匀分布的数据集使得传统的基于数据集类别均匀分布假设所设计的分类算法无法达到预期的分类效果。其次,网络流量每时每刻源源不断地产生,数据规模越来越大,给机器学习模型构建带来了巨大困难。本文针对基于网络流量进行的Android恶意应用检测领域中遇到的上述关键问题,从普适的类别不平衡学习方法入手,到Android恶意应用检测领域中特有的类别不平衡学习方法,最后到大数据环境下的类别不平衡学习方法,由简入繁,系统地开展了以下研究工作:(1)针对于类别不平衡学习问题,提出一个基于自适应加权和高斯概率密度函数的过采样算法。该算法通过分析位置和样本数量两种因素,给每一个少数类样本分配不同的权重,然后根据此权重,结合高斯概率密度函数,合成少数类样本。该算法在37个公开的非平衡数据集之上,通过与7种现有的数据重采样方法对比,验证了其有效性,并成功应用到Android恶意应用检测领域中。(2)针对于类别不平衡学习问题,提出一个基于多样性测量和种群增量学习算法进化的非平衡集成学习模型。该模型以本文设计的样本多样性测量指标为适应值函数,借助种群增量学习算法生成一个具有最大多样性的训练子集合。通过与相关算法在44个公开的非平衡数据集上进行测试,证明该模型具有显著性优势。此外,该模型同样成功应用到Android恶意应用检测领域中。(3)针对于基于语义信息构建Android恶意应用检测模型中的类别不平衡学习问题,提出一个基于signature辅助的随机过采样模型。该模型通过借助提取的HTTP协议流中的signature实现合成全部为内容特征的新恶意样本。在与11种数据重采样方法在两种不同非平衡率的网络流量数据集上的对比实验中,该方法表现突出。(4)针对于大规模网络流量数据的类别不平衡学习问题,改进了一个基于分布式框架的类别不平衡学习模型。该模型利用Spark分布式平台的广播机制使每个计算节点上都能保留全部的少数类样本信息,并且可以自适应地寻找最佳过采样比例。应用该模型,可以有效的在大规模类别不平衡网络流量数据集上构建Android恶意应用检测模型。综上所述,本文针对于网络流量数据的类别不平衡分布和海量数据规模问题,提出了有效的解决方案,并通过实验验证了本文所提方法的优越性。本文的研究工作对推进恶意应用检测领域中的大数据条件下的类别不平衡学习问题具有一定的理论意义和应用价值。