关键词:
高维数据分析
特征排序
变量选择
交叉项选择
多重检验
摘要:
现代生物医学与经济金融领域产生的高维数据中包含对经济金融活动,生命遗传信息与生理过程的多方面的记录。高维数据为许多科学问题提供了丰富的描述但同时也在建模,计算和预测方面带来了挑战。从海量的高维数据中定位有用的信息,发现数据的低维结构,对提升统计分析的解释力,降低计算成本和进行预测都具有重要意义。
在统计学中,模型结构学习这一任务在高维数据分析,非参数统计和统计机器学习等不同领域都被广泛地研究。其中,高维变量选择,也被称为稀疏学习,是模型结构学习的重要部分。模型结构学习中的其他任务,比如参数非参数效应识别,交叉项效应识别的许多研究都基于变量选择的思想和技术。变量选择的目的在于在尽可能保留数据中有用信息的同时,剔除无关变量,这可以避免冗余变量导致的模型过拟合,同时降低计算成本。此外,在超高维数据(Ultra-high Dimensional Data)的背景下,模型结构学习往往更具挑战性。有统计学家提出,使用无模型的特征筛选方法初步筛选出部分变量,然后再基于这部分变量进行模型结构学习,可以显著提升后续分析的效率。同时近年来,重要变量识别的可解释性与可重复性在应用中被广泛关注,有学者开始致力于对变量选择结果进行量化的评价,在变量选择问题中引入多重检验的思想,对变量选择的错误发现率(False Discovery Rate)进行控制。在本文的第1章中,我们对这些问题做了一个简要的综述。
在本文的第2章,我们研究了结合网络信息的特征筛选问题与其在生物基因组标记物识别中的应用。大多数现有的特征筛选方法都基于特征和响应变量之间的边际相关关系,并存在一个共同的局限性,即特征之间的依赖(网络)结构没有得到很好的利用。在本章中,我们提出了一种结构化特征排序方法,通过拉普拉斯正则化有效地在特征筛选中结合了网络结构。本章提出的方法创新性地研究了多种网络情况,每种网络可以包含不同的相依信息。其中网络可以是已知的,也可以是根据数据估计的。此外,我们严格探讨了网络中的噪声和随机性对最终结果的影响,并通过适当选择调整参数控制其影响。这些特点使我们提出的方法具有特别广泛的适用性。本章方法在较为宽松的条件下,对一般的Kirchnoff矩阵形式的网络信息都给出了统计理论的保证。同时,我们通过大量的模拟以及基于The Cancer Genome Atlas数据库黑色素瘤数据的分析,证明了所提方法在有限样本上的有效性和实用性。
在本文的第3章,我们给出了一个基于多重检验的对高维Cox模型进行变量选择和错误发现率控制的方法。高维生存数据的统计推断在包括生物医学研究和金融风险管理的许多领域中被广泛应用,对稳健的可复现的科学发现提供了重要的方法支持。在这项工作中,我们开发了一种新的基于不均匀数据分割、对称统计量和纠偏估计量的错误发现率控制方法(False Discovery Rate Control)。不均匀数据分割的想法首次是在线性回归问题中被提出,本文将其推广到生存数据中,以提高多重检验的检验功效。相较于目前常用的基于P值的方法,基于对称性的统计量在有限样本的情况下表现更加稳健,因为它只取决于估计系数在两个独立子数据集中的独立性,对估计系数的渐近正态性没有要求。我们通过广泛的模拟研究和一个关于P2P贷款的真实案例研究,说明了我们所提出的方法的优越性和潜在的广泛可用性。
在本文第4章,与现有的大多数方法不同,本章提出了一个通用的、新颖的框架,通过在可再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)中使用非结构化的M-估计来估计目标函数的真实结构。本章提出的框架基于一个简洁的思想:梯度函数可以作为学习函数真实结构的有效工具。本章的方法框架可以应用于稀疏学习、交互项选择和参数非参数效应识别问题。在高维问题中,我们利用RKHS的计算有效性,可以极大降低计算负担。更重要的是,它可以应用于许多一般的损失函数,因此可以解决不同数据类型下的数据预测和分类问题。在本章中,我们在不施加任何明确的模型设定的情况下对所提出的方法在多种损失函数下建立了渐近理论。本章方法的优越表现也通过模拟和一个基于乳腺癌数据的真实案例研究来进行了说明。
最后,本文中所有方法都有使用R软件进行编程实现的软件包,以便其他研究者使用和参考。