关键词:
深度强化学习
样本效率
情节记忆
行动者-评论家框架
摘要:
深度强化学习方法被广泛应用,但在实际任务中,它们的训练成本往往很高。提升样本效率至关重要,即在有限的交互采样次数内取得更好的训练效果。在离散动作任务中,情节控制方法通过记忆过去的高奖励状态-动作对,并在遇到相似状态时执行之前得到高奖励的动作,能够有效提升样本效率。但是,在连续动作任务中,很难使用情节控制的方法。
本文的主要目的是在连续动作任务中使用情节记忆提升样本效率,通过情节记忆优化智能体的样本采集过程,选择更有潜力的动作与环境互动,并鼓励智能体访问更新颖的状态-动作对以提升探索能力。
首先,本文解决了在连续动作任务中,使用情节控制方法进行动作选择的两个关键问题:
1)在连续动作任务中,由于动作空间规模过大导致无法通过情节记忆对每个可执行动作进行价值估计。本文提出了一种“情节记忆-双行动者-双评论家”框架,两个行动者分别对应两个评论家。收集数据阶段,在智能体与环境交互时,使用情节记忆和评论家的混合价值估计方式来选择动作。首先通过双行动者分别最大化两个评论家的价值估计,选择出两个备选动作,然后通过情节记忆对两个状态-动作对进行价值估计。如果两个状态-动作对同时出现在情节记忆中,则执行情节记忆价值估计高的动作,否则,执行评论家价值估计高的动作。情节记忆-双行动者-双评论家能够选择出更具潜力的动作,这一方法能有效缓解评论家价值估计偏差导致的样本效率低下的问题。
2)在连续动作任务中,由于状态空间的高维性和连续性,智能体很难遇到完全相同的状态,而通过传统k NN方式在情节记忆中查找近似状态所需计算资源过高,通过均等划分状态空间和动作空间的聚类方式无法准确估计状态-动作对的价值。本文提出了基于Kalman滤波优化器的情节记忆,并为Kalman滤波优化器设计了自适应观测值误差协方差。基于Kalman滤波优化器的情节记忆所需的计算成本小,且对状态-动作对的价值估计更加准确。
本文将情节记忆-双行动者-双评论家框架和基于Kalman滤波优化器的情节记忆应用于TD3算法,提出了基于Kalman滤波优化器的情节记忆-双行动者-双评论家(Episodic Memory with Kalman filter optimizer-Double Actor-Critic,EMKDAC)算法。情节记忆和评论家的混合估计,能够选择出更有潜力的动作,优化样本采集过程,实现样本效率的提升。
之后,为了进一步优化算法性能,提升智能体的探索能力,避免智能体陷入局部最优,本文基于情节记忆设计了内在奖励模块,鼓励智能体访问更加新颖的状态-动作对,通过增强智能体的探索能力来提高样本效率。并将基于情节记忆的内在奖励模块添加到EMKDAC算法中,提出了一种增强探索能力的基于Kalman滤波优化器的情节记忆-双行动者-双评论家(Exploration-capable“Episodic Memory with Kalman filter optimizer-Double Actor-Critic”,EEMKDAC)算法。
本文在带有稠密奖励的Open AI Gym的Mu Jo Co基准的连续动作任务中,对EMKDAC算法和EEMKDAC算法进行了性能测试,结果表明,EMKDAC算法和EEMKDAC算法有效提升了基线算法的样本效率,并且性能超越了目前最先进的同类深度强化学习算法。在带有稀疏奖励的Sparse Mu Jo Co环境中对EEMKDAC算法进行了性能测试,EEMKDAC算法取得了最优表现,展现出良好的探索能力。本文通过对比实验验证了情节记忆在提升样本效率中的作用,通过消融实验证明了算法各部分组件对整体性能的贡献。