关键词:
用户建模
联邦学习
异质性
模型个性化
增强机制
深度知识追踪
摘要:
得益于个人设备的发展,在过去的几十年里,大量的个性化应用程序得到了普及。与此同时,个人设备生成并储存了海量的个人数据。这种海量的个人数据中蕴含了诸如用户的兴趣偏好、知识能力等有价值的用户特征。因此,基于用户显式的行为数据,旨在建模用户潜在特征的用户建模任务逐渐成为了各种智能技术与应用的基础任务。通常,服务提供方或数据中心使用中心化的用户建模方法,这种中心化的用户建模方法不可避免地引入了数据滥用和隐私泄露的风险。出于保护个人隐私,避免数据泄露的目的,联邦用户建模方法获得了广泛关注。联邦用户建模希望通过联邦学习为用户建模提供安全的多客户端协作。近年来,研究者们开展了诸多针对联邦用户建模的方法和应用的研究。然而现有的联邦用户建模方法仍有待研究和可改进的空间。现有的联邦用户建模方法忽略了客户端之间的不一致性,导致了其在实际的用户建模场景的应用还有一定困难。具体而言,联邦用户建模面临着如下的关键挑战:1)统计异质性。不同个人设备、客户端的用户数据不总是独立同分布的(Independently Identically Distributed,IID),差异化的使用场景和习惯爱好导致了各客户端中包含着个性化的的信息和特征;2)隐私异质性。用户数据包含了具有不同隐私强度的信息,如公开信息和私有信息。对具有不同隐私强度信息的共享和保护程度应该被合理地平衡;3)模型异质性。各个客户端通常使用本地数据进行本地模型的定义和训练,这导致了本地用户模型可能存在异构,所以如何灵活地对异构的本地模型进行聚合也是需要考虑的问题;4)质量异质性。客户端中用户数据的质量存在着差异,低质量的信息会降低用户模型的可靠性,并抵消高质量信息的增益,这意味着来自高质量信息的影响需要被增强。针对以上挑战,本文对联邦用户建模方法进行了如下三方面的研究。首先基于联邦学习实现不一致客户端的用户建模,提出了分层个性化联邦学习框架(Hierarchical Personalized Federated Learning,HPFL)。进一步地,考虑加入增强机制,过滤掉噪声、稀疏信息和冗余信息等低质量信息,将分层个性化联邦学习框架拓展为增强分层个性化联邦学习框架(Augmented Hierarchical Personalized Federated Learning,AHPFL)。此外,在教育场景的动态用户建模任务中考虑教育数据质量异质性影响,提出了联邦深度知识追踪框架。总的来看,本文的主要研究内容和贡献有:1.提出了一个用于不一致客户端的分层个性化联邦学习框架HPFL。该框架遵循客户端-服务器架构。其中,客户端训练本地模型并上传包含隐私异构信息的分层模型成分从而加入联邦学习训练流程。此外,客户端使用一种针对统计异质性的细粒度个性化更新策略更新个性化用户模型。相应的,服务器在考虑隐私异质性和模型异质性的情况下,采用差异化的成分聚合策略灵活地聚合来自不一致客户端的用户模型。2.进一步地,提出了一个基于增强机制的增强分层个性化联邦学习框架AH-PFL。该框架中引入了增强机制,过滤掉低质量信息,增强高质量信息的影响。本文构造了 AHPFL的两种实现,即AHPFL-SVD和AHPFL-AE,其中框架的增强的机制分别基于奇异值分解方法(Singular Value Decomposition,SVD)和自编码器方法(AutoEncoder,AE)实现。3.提出了一个面向数据质量异质性的联邦知识追踪框架FDKT。该框架中,每个客户端负责训练一个独立的动态用户模型,即深度知识追踪模型DKT。客户端结合了不同的教育测量理论对数据质量进行评估,构造了 FDKTCTT和FDKTIRT两种实现。其中数据质量评估方法分别遵循经典测试理论(Classical Test Theory,CTT)和项目反应理论(Item Response Theory,IRT)。中心服务器负责聚合本地模型并更新所有客户端的参数。4.本文在真实数据集上进行了大量的实验。实验结果证明了本文所提出的HPFL框架,AHPFL框架以及FDKT框架的有效性。