关键词:
深度学习
联邦学习
知识蒸馏
高效通信
非独立同分布数据
摘要:
随着互联网的蓬勃发展与移动设备的广泛普及,文字、图像、音频等数据呈指数型增长,在数据隐私保护的前提下进行设备间协同工作的需求日益增长。为满足这一需求,联邦学习于2016年被提出。联邦学习通过设备间模型参数,如模型权重或者梯度,的分享代替设备本地数据的传输,整合了分散的计算资源与非中心化的数据,大幅度提高了分布式网络结构的可扩展性,为人工智能数据隐私安全问题提供了有效的解决方案。联邦学习作为颇有前景的分布式机器学习范式,但其部署面临了双重问题。受限的带宽资源成为实施联邦学习的瓶颈。神经网络参数量随设备计算能力的提高而巨幅增长,受限的网络带宽难以支持分布式设备与服务器间海量参数的频繁传输。传输瓶颈导致联邦学习面临了高延时的模型协同训练以及模型参数同步困难的难题。设备间非独立同分布数据环境导致联邦学习性能难以满足需求。分布式设备由于使用环境的不同与用户数据收集偏好的不同,设备间的数据分布差异较大,并在统计学上表现为非独立同分布。该数据特性导致了模型收敛困难,模型泛化能力不足等问题。本文从数据分布的角度出发,在隐私保护的前提下对非独立同分布数据场景特点进行深入分析,针对四种典型数据场景,利用知识蒸馏相关技术原理,设计了基于模型知识传输的新型分布式神经网络训练框架,并提出了通信高效的联邦生成与联邦分类算法,具体研究内容如下。(1)本文针对概念偏移、特征分布偏移、标签分布偏移、数量偏移的非独立同分布数据场景下的分布式数据生成问题进行了分析与建模,设计了高效联邦生成算法CvaeFD。为解决通信瓶颈问题,CvaeFD算法基于知识蒸馏技术,使用自注意力机制提取隐层特征中的知识,用于代替传统联邦学习中模型权重或者梯度的传输,减少了设备与服务器间传输资源的占用。为解决非独立同分布数据场景下分布式生成模型训练困难问题,CvaeFD算法将易收敛的条件变分自动编码器(CVAE)作为生成器网络。为进一步提升模型的泛化能力,该算法利用条件变分自动编码器的网络结构优势,约束了隐变量的采样过程,使不同类别数据之间的平均距离增大,为分类模型提供优质的数据基础。(2)本文针对标签分布偏移、数量偏移的非独立同分布数据场景下的分布式分类问题进行了分析与建模,设计了高效联邦分类算法IceFD。为解决通信瓶颈问题,IceFD算法基于知识蒸馏技术,实现了分布式设备与服务器间的高效传输。IceFD算法通过提取基于数据类间关联性的知识,捕捉了类别之间的相似性与差异性,解决了模型泛化能力不足的问题。同时,该算法分享了分类器网络的浅层权重,加快了模型的收敛速度,提升了模型在该数据场景下的泛化能力。为进一步提升模型在该数据场景下的精度,该算法通过设计“设备贡献度”,优化了本地知识、本地浅层网络权重的聚合过程。通过分析IceFD算法的梯度更新模式,证明了该算法的有效性。(3)本文针对概念偏移、特征分布偏移的非独立同分布数据场景下的分布式分类问题进行了分析与建模,设计了高效联邦分类算法SparkFD。为解决通信瓶颈问题,SparkFD算法基于知识蒸馏技术,降低了设备与服务器间的传输开销。为解决此数据场景下分布式分类模型训练困难问题,SparkFD算法利用类别信息,通过有监督的联邦对比学习,捕捉了设备间知识的类内与类间关系,提取了与分类最相关的知识,从而提高了分类器对于非独立同分布数据的泛化能力。同时,该算法通过对抗学习,逐类别对比了来自所有设备的知识,提取了针对每个类别的设备间通用知识。以上知识的提取提高了分类器对于非独立同分布数据的泛化能力。(4)本文对复杂非独立同分布数据场景下的分布式模型训练问题进行分析,整合上述研究,设计了一种高效联邦分类框架Fed2KD。为解决通信瓶颈问题,Fed2KD框架基于知识蒸馏技术,减少了设备与服务器间传输资源的占用。为解决非独立同分布数据场景下分布式模型训练困难问题,Fed2KD框架首先通过数据增强算法将本地非独立同分布数据纠正为独立同分布数据,随后该数据集被用于分类器网络的联邦训练。该框架作为一种通用两步走框架,第一步联邦生成算法与第二步联邦分类算法可以根据任务要求进行调整。复杂非独立同分布数据环境下,该框架提供了灵活解决目标任务的方法,提高了目标模型对于该数据环境的泛化能力。通过分析Fed2KD框架的收敛性,证明了该框架的有效性。综上,本文针对不同的非独立同分布数据特性,提出了相应的数据生成算法CvaeFD与数据分类算法IceFD、SparkFD,同时,本文通过整合以上算法,提出了更为通用的联邦学习框架Fed2KD。以上算法与框架均能在保证模型性能的前提下,实现了非独立同分布数据场景下的高效联邦学习。