关键词:
步态
抑郁症
睡眠
阻塞性睡眠呼吸暂停
联邦学习
对比学习
摘要:
在经历漫长的与新冠抗争之后,人们逐渐恢复正常生活工作。但是新冠对人们身体以及精神的损害并没有随之根除,其中抑郁症以及以阻塞性睡眠呼吸暂停为代表的睡眠障碍等疾病的发病率逐渐提升,给人们的生命健康带来巨大威胁。随着计算机技术的发展,计算机辅助诊疗方式随之衍生,医疗人工智能(Artificial Intelligence,AI)模型利用大量医疗数据可以取得媲美人工的诊断效果。但是,当前的计算机辅助诊疗方法存在着一定的局限性。一方面,这些方法大多需要病人配合检测甚至会对病人产生刺激,数据真实可靠性大打折扣;另一方面,医疗数据往往分散且包含大量患者姓名、背景以及患病情况等重要隐私信息。假使这些数据丢失,可能会对医疗工作人员以及患者产生恶劣的影响;如果采用数据不出本地的保护措施,则会造成“数据孤岛”现象,对以数据为驱动的AI模型性能产生较大损失。研究表明,人的步态以及睡眠声音可以分别作为抑郁症以及阻塞性睡眠呼吸暂停检测的重要参考,且上述两种数据模态均具有难以伪装以及无需佩戴仪器采集等特点,可以无扰式收集。联邦学习方法,作为一种具有数据安全保护功能的分布式机器学习训练方法,已经成为目前工业界和学界的一个热点研究方向。本文设计基于3D骨架序列的步态数据以及基于声音的睡眠数据的收集和预处理方案,并使用联邦学习方法训练获取高质量医疗模型用于抑郁症以及阻塞性睡眠呼吸暂停检测,在保证模型精度的同时保护医疗数据的安全隐私性。对于联邦学习方法常面临的由各个参与方间数据呈非独立同分布造成的效率下降问题,本文使用对比学习方法对联邦学习方法进行优化以提升其效率。本文的主要研究内容包括:(1)本文提出基于3D骨架的步态数据以及基于声音的睡眠数据的收集以及预处理方法。该方法,可以对受试者无扰式地收集数据,既高效便捷,又提高数据的真实可靠性。针对步态数据,本文使用微软Kinect传感器收集包含3D骨架信息的原始数据,并使用坐标变换以及滤波方法进行预处理。针对睡眠数据,本文使用智能手机对人体睡眠时的声音进行采集,并使用数据分段与鼾声数据提取等方法进行数据预处理。(2)本文针对医疗模型训练中出现的数据孤岛现象以及数据安全问题,提出基于横向联邦学习方法的解决方案。使用联邦学习训练机制可以将医疗数据留存在本地服务器中进行模型训练,各方数据信息通过模型参数进行传输沟通,从而有效保护医疗数据的安全。同时,为形成对比,本文使用支持向量机算法、K近邻算法、决策树算法等机器学习算法以及长短时记忆网络模型、Sleep Det CNN模型等深度学习算法,分别用于抑郁症识别以及阻塞性睡眠呼吸暂停检测。实验结果显示,与在本地单独训练得到的模型相比,使用联邦学习训练得到的模型在保证数据安全的基础上,准确率提升达到6%-8%。(3)由于不同医疗机构之间如果数据分布特征差距较大,呈非独立同分布,在实际使用中会造成模型精度下降等性能问题,本文分析传统联邦学习在医疗场景中的使用场景以及工作流程,并针对上述问题本文使用一种基于对比学习的联邦学习方法用于步态与睡眠医疗场景中。该方法可以有效提升医疗模型效果,相对于Fed AVg联邦学习方法,实验结果表明抑郁症识别模型以及阻塞性睡眠呼吸暂停检测模型准确率提升4%-6%。综上所述,本文针对于抑郁症以及阻塞性睡眠呼吸暂停检测两种具体的医疗场景,提出可以有效保护数据安全隐私并保证模型性能的联邦学习方法。并使用对比学习方法对于分布式训练面临的模型聚合问题进行优化,进一步提升联邦学习模型的精度。本研究为分布式的特定医疗筛查问题提供新的思路。