关键词:
局部因果结构
因果结构学习
特征选择
流特征
近似马尔可夫毯
摘要:
因果结构学习作为数据挖掘领域的重要课题,旨在发现变量之间的因果关系。目前,数据体现的大体量和时序性,且特征动态变化,学习全局的因果结构既不现实也无必要。局部因果结构学习的核心是识别目标变量(Target variable,T)的直接原因(父母)和直接影响(子女),而忽略与T不相关的特征,更适合高维数据。然而,目前局部因果结构学习算法只适用于静态数据,无法适配特征的动态变化。本文旨在探索流特征环境下的局部因果结构学习,实现对T的因果关系挖掘。主要研究包括如下方面:首先,针对从非忠实条件下的动态特征空间中挖掘因果特征准确性较低且可能不完备的问题,提出面向流特征的因果特征学习算法OL,通过实时过滤不相关的和冗余的特征,尽可能地保留因果特征的方式,实现动态挖掘目标变量T的因果特征集,即T的近似马尔可夫毯(approximate Markov Blanket,a MB)。其次,以因果特征学习算法OL实时挖掘的a MB特征集合为基础,构建局部因果结构学习算法LCSL,使得学习过程适应动态特征空间的变化。LCSL利用a MB中的特征节点,学习T与a MB中元素节点之间的V-结构,并结合Meek规则进行边定向,区分T的直接原因和直接影响。再次,分别将OL和LCSL算法与基准算法比较,验证方法的有效性。其中,将OL算法与OSFS、SAOLA和OCFSSF算法在合成/真实数据集上进行对比实验,将识别的因果特征应用于三种不同的分类器,通过分类精度指标以验证OL算法的性能。将LCSL算法与适用于静态数据的局部因果结构算法CMB、PCD-by-PCD、MB-by-MB、ELCS和LCS-FS在13个合成数据集下进行对比,并与三个变体算法在动态特征空间下进行比较,通过结构化汉明距离(SHD)、精确率(Precision)、召回率(Recall)和F1评分(F1-Score)指标,验证LCSL的准确性。最后,将OL和LCSL算法应用在真实的癌症和肺癌因果分析的场景下,并与基准算法进行对比实验,验证算法在真实场景中的有效性和实用性。