关键词:
多智能体强化学习
角色学习
任务分解
子任务分配
技能发现
摘要:
在合作多智能体系统中,多个智能体通过分工合作,达成一个共同目标。许多现实世界问题都可以建模为一个合作多智能体系统,例如无人机集群控制、交通灯控制和电网控制。多智能体强化学习作为解决合作多智能体系统的一个重要方向,有着广阔的应用前景,并在近年来受到广泛关注。然而,相比于单智能体场景,多智能体场景带来了更多的挑战,例如环境的非平稳性、状态的局部可观测性、奖励分配的合理性和可拓展性,并且这些挑战会随智能体数量增加而加剧。针对这些问题,本文将角色学习引入到多智能体强化学习中,把多智能体任务分解为不同的角色来完成,再让智能体按角色进行分组学习,每个智能体只需要专注于其角色对应的任务,各司其职,以简化多智能体任务复杂度,提高系统效率。本文分别从子任务学习和技能发现两个方面来研究多智能体中的角色学习,主要研究内容和贡献点可以总结为以下两点:
第一,本文提出了一种基于动态子任务分配的多智能体强化学习算法。本方法将多智能体任务分解为不同的子任务,不同子任务由智能体扮演不同的角色来完成。具体地,为了定义子任务,本方法引入一个子任务编码器,根据子任务ID来为每个子任务构建一个向量表征。然后,本方法提出一种基于能力的子任务分配策略,即基于智能体的能力来将智能体动态分配给不同的子任务。按子任务对智能体进行分组后,处理相同子任务的智能体共享策略参数来学习,不同子任务学习不同的策略参数。通过这种方式,可以让具有相似能力的智能体聚合起来处理相同的子任务,让智能体动态地共享学习以加速训练。实验结果表明,本方法学会了合理且有效的子任务分配来进行更好的协作,并显著提高了复杂多智能体任务上的性能。
第二,本文提出了一种基于分层技能发现的多智能体强化学习算法。本方法将多智能体任务分解为不同技能的组合,不同技能对应着不同角色所掌握的特定能力。具体地,本方法同时学习多智能体任务中潜在的团队技能和个人技能,并构建一个概率图模型来建模多智能体技能发现问题,进而推导出一个变分下界作为优化目标。然后,本方法提出一个两级分层的学习框架来优化下界,其中高层策略采用Transformer结构按顺序给智能体分配技能,低层策略使用基于隐变量的策略去发现分配的技能。实验结果表明,与强大的基线相比,本方法在稀疏奖励多智能体基准上实现了优越的性能提升。