关键词:
联邦学习
个性化模型
聚类算法
知识蒸馏
联邦医疗诊断
摘要:
在现实生产生活中,特别是智慧医疗、信贷金融风控、自动驾驶在内的强保密领域,由于隐私、存储或者通信等限制,边缘设备的本地数据无法被收集用来参与集中式机器学习训练,所以研究人员提出了联邦学习框架来解决这类问题。联邦学习是一种基于异构边缘计算环境的分布式学习范式,参与联邦学习的用户无需传输本地私有的数据集,从而避免了数据泄露的风险,而通过联合多方建模,联邦学习汇聚了更多可用的知识,提高了数据的利用率。但是,这种模型训练策略往往难以应对不同客户端之间存在的复杂数据分布问题,尤其是在客户端之间异质性较强的情况下,该方法难以有效处理数据分布带来的统计挑战。针对该问题,研究人员给出了个性化的模型优化方法,旨在为不同客户端提供个性化的建议,使其能够适用含异构数据的联邦学习环境。然而,现有的个性化优化方法,主要用于解决全局模型优化问题,缺乏适用于多模型问题的联邦学习方法。同时,现有的个性化联邦学习方法中,客户端每一轮的模型训练过程未利用历史信息,导致局部模型两轮通信之间的更新存在偏差。为此,本文提出了微调聚类策略,来合理构建多模型的个性化联邦学习框架,并在此基础上实现了个性化粒度更加精细的含客户端自知识蒸馏的联邦学习框架。首先,在无法获取客户端私有数据分布的情况下,借鉴已有的联邦学习多模型处理技术,将聚类算法与联邦学习相结合,提出了微调聚类策略,在联邦学习环境中引入了对聚类质量衡量的标准,并在此基础上进行不同类别之间客户端的调整。基于上述微调聚类的结果,在服务器端采用改进的模型聚合权重,构建了基于客户端损失值的自适应更新权重策略。通过在12个数据集上与自身变体和其他聚类个性化联邦学习算法进行比较,表明了提出的含微调聚类和自适应更新权重的个性化联邦学习算法能够有效缓解异构数据带来的统计挑战。其次,为了将个性化粒度从聚类层面扩展到更加精细的客户端层面,基于现有的联邦学习框架,在客户端引入知识蒸馏技术,给出客户端自知识蒸馏策略。进而,基于客户端局部模型在相邻两轮通信中存在的偏差,改进了现有的自知识蒸馏策略,构建了自适应多教师的客户端自知识蒸馏算法,使其在联邦学习环境下快速响应局部模型的性能下降,缓慢适应局部模型性能的提升。实验结果表明,所提基于自适应多教师的客户端自知识蒸馏的个性化联邦学习算法能够有效缓解异质用户带来的统计挑战,并且为客户端提供更加精细的个性化模型。最后,为了验证本文研究工作在实际生活应用中的有效性,综合微调聚类和客户端自知识蒸馏策略,在联邦医疗诊断场景下,提出了面向多源医学图像分类的个性化联邦学习算法。为了应对复杂的真实应用环境,所提算法设计了个性化层级逐步递进的框架,从聚类层面精细到客户端层面,最大程度缓解了参与联邦学习的用户异质性问题。通过3个真实医疗数据集的实验结果证明,面向多源医学图像分类的个性化联邦学习算法可以获得性能更佳、收敛速度更快的分类模型。上述的研究成果不仅丰富了面向异构数据的联邦学习算法理论,同时也为个性化联邦学习方式在面对统计挑战时提供了新的研究思路。该论文有图26幅,表16个,参考文献123篇。