关键词:
机器学习
多变量生物医学数据
核矩阵
黎曼流形
长短期记忆网络
摘要:
随着自然科学的发展和全球信息化的推进,生物医学领域进入了大数据时代。尤其是机器学习方法出现之后,其强大的特征提取能力极大地推动了生物医学数据的研究进程。根据研究变量个数的不同,生物医学数据可分为单变量生物医学数据和多变量生物医学数据。在各类多变量生物医学数据中,脑机接口(Brain-Computer Interface,BCI)技术的研究有助于视听觉受损和肢体运动能力受限的残疾人恢复正常,功能磁共振成像(functional Magnetic Resonance Imaging,f MRI)的研究有助于脑部疾病的诊断和预防。因此,这两类数据的分析和处理在近年来得到了研究人员越来越多的关注。本文基于机器学习理论,对BCI中的稳态视觉诱发电位(Steady-state Visually Evoked Potentials,SSVEP)数据和f MRI中的自闭症脑成像(Autism Brain Imaging Data Exchange,ABIDE)数据的分类提出了新方法,有效提升了分类性能。本文的主要工作包括如下两个方面:(1)针对SSVEP数据提出了基于核矩阵的分类算法。目前已有的分类方法通常是利用协方差矩阵对SSVEP数据进行特征提取,再利用经典的机器学习方法进行分类。由Mercer定理可知,传统的协方差矩阵只是核矩阵的一种特殊形式。此外,与传统的欧氏空间相比,黎曼空间更能反映内蕴距离,但是大多数经典的分类算法都是基于欧氏空间的。因此,本文提出了一种在黎曼切空间中的核矩阵分类方法。首先,利用高斯核矩阵代替传统的协方差矩阵对SSVEP数据进行特征提取;然后,将特征提取的结果映射到黎曼流形的切空间中;最后,使用经典的机器学习分类器实现分类。实验结果表明,基于黎曼切空间的核矩阵分类算法能够有效地提高分类准确率。(2)针对ABIDE数据提出了基于长短期记忆网络(Long Short-term Memory,LSTM)的分类模型。目前对于ABIDE数据的分类主要是通过不同的功能连接方法进行特征提取,然后再构建支持向量机(Support Vector Machines,SVM)等模型对其进行分类。但f MRI数据本质上是多变量时间序列,传统机器学习模型可能无法充分挖掘到其隐含的时序特征,而LSTM网络可以很好地从时序数据中捕获和学习数据特性且考虑了时间的依赖问题。因此,本文提出了基于LSTM网络的ABIDE数据分类模型。首先,使用Smith2009 70 RSNs图集对ABIDE数据进行掩码操作;然后,构建包含三层LSTM的网络模型;最后,验证其在分类任务中的可行性。实验结果表明,该模型的分类平均准确率得到了改善,但其敏感性和特异性还有待提高。