关键词:
联邦学习
隐私保护
同态加密
不可靠参与者
差分隐私
摘要:
近些年,随着信息技术的迅猛发展,以深度学习为代表的人工智能技术已经被广泛应用于故障诊断、智能控制、情感识别以及生物信息等领域。工程研发人员在开发一个高性能的深度学习模型时,通常需要收集大量的数据用于模型训练。出于隐私保护和商业竞争的考虑,以及法律法规方面的要求,数据拥有者通常不愿意,甚至不被允许分享本地数据资源,这严重阻碍了深度学习技术进一步的发展。为打破不同机构之间的数据壁垒,联邦学习作为一种新颖的分布式深度学习方法被提出,该方法能够协调多个参与者共同训练一个深度学习模型。参与者通过分享本地模型参数代替分享本地数据的方式,从而一定程度上缓解了参与者的隐私顾虑。虽然联邦学习以其出色的特性受到了学术界与工业界的广泛关注,但是在工程应用时,联邦学习面临着参与者本地数据信息泄露、数据通信成本高昂、不可靠参与者等问题。因此,如何在保护参与者的本地数据安全的同时,提升整个联邦学习系统运行效能,是当前研究的重点方向之一。本文以构建高效可靠的联邦学习系统为研究目标,结合真实工业场景的需求,分别对联邦学习中的模型聚合间隔调整、不可靠参与者识别、混合数据隐私保护方案开展研究。本文的主要内容总结如下:(1)针对参与者数据分布不均匀场景下,联邦学习系统模型聚合间隔设置困难的问题,本文提出一种面向非独立同分布数据的自适应隐私保护动量联邦学习方法(Adaptive privacy-preserving momentum federated learning,Ada PMFL)。首先以经典的神经网络模型为例,通过数学公式推导说明参与者上传的本地模型参数是如何泄露其本地数据信息,并系统分析了联邦学习出现全局模型可用性下降的原因。基于此,本文提出一种自适应模型聚合方案,该方案能够对参与者本地训练的mini-batch值进行设定,并能根据参与者训练过程信息,自适应地调整模型聚合间隔以降低密码学计算和数据通信成本。同时,为保护参与者的本地数据信息,本文提出一种基于Paillier同态加密的安全数据通信方案。在该通信方案中,参与者通过对本地上传的模型参数进行同态加密,从而保护其本地数据隐私信息。最后,理论分析与实验结果表明,所提出的联邦学习方法Ada PMFL能够在保护参与者数据信息安全的前提下,提高联邦学习系统的训练效率,并兼顾全局模型的可用性。(2)联邦学习在真实工业场景应用时,系统中可能存在拥有低质量数据的不可靠参与者。不可靠参与者上传的模型参数,会造成全局模型的可用性下降,甚至导致整个联邦学习训练过程不收敛。针对该问题,本文设计了一种基于余弦相似度的不可靠参与者识别算法,并基于此提出了一种防范不可靠参与者的隐私保护动量联邦学习方法Detect PMFL。该方法通过云服务器与参与者协作,计算出各个参与者的可靠度,从而降低不可靠参与者对全局模型的影响。并且,该联邦学习方法采用CKKS同态加密方案对参与者的本地数据信息进行保护。理论分析和实验结果表明,所提出的联邦学习方法Detect PMFL能够有效降低不可靠参与者对系统造成的负面影响,并为参与者提供良好的隐私保护。(3)为进一步增强联邦学习系统的隐私保护水平,本文提出一种隐私保护增强的动量联邦学习方法(Privacy-Enhanced Momentum Federated Learning,PEMFL),该方法中将混沌系统理论引入到联邦学习领域中。参与者通过使用超混沌加密技术对其本地模型的权重参数进行加密,使得云服务器无法获取到可用的模型参数,从而避免参与者与云服务器直接交互。并且,利用差分隐私和动量加速技术,构建出一种基于差分隐私的动量梯度下降法(Differential privacy momentum gradient descent,DPMGD),使得所提出的联邦学习方法PEMFL能够一定程度上抵抗串谋攻击,并且提高模型训练速度。理论分析和实验结果表明,本文所提出的联邦学习方法PEMFL能够有效地提升联邦学习的隐私保护水平,并提高联邦学习训练性能。