关键词:
强化学习
深度Q学习
值函数分布估计
有模型强化学习
分层强化学习
冰壶策略学习
摘要:
强化学习是解决序列决策问题的一种途径,其主要思想是将问题建模成马尔可夫决策过程,使问题的目标与奖励信号相对应,然后智能体通过试错的方式不断更新策略,以取得最大化的奖励。强化学习不需要有标签数据,同时智能体能够基于状态行动,具有较强的适应能力,这些性质使强化学习成为人工智能领域热门研究方向之一。与深度学习结合形成的深度强化学习方法在视频游戏,智能控制,推荐系统等领域取得了突破性的成就,具有广泛的应用价值。
尽管在一些复杂任务中展现出了较好的效果,深度强化学习领域仍然面临诸多挑战,其中之一便是算法样本低效问题。智能体需要与环境交互,采集大量样本进行训练才能得到具备一定性能的策略。以雅达利视频游戏为例,智能体交互6~9天,共进行约2千万次交互才能达到人类玩20分钟的水平。现实世界中智能体大量交互会增加时间和经济成本,限制了深度强化学习进一步发展与应用。其原因在于智能体与环境交互时,由于策略质量不佳容易做出错误决策,使其陷入到不利的状态之中,增加完成任务需要的样本数量。为避免智能体做出错误决策,尽快完成任务,实现样本高效的算法,本文从三个方面提升了智能体策略质量,包括策略的鲁棒性,规划能力和探索能力,并提出一种加速策略训练进程的方法,具体包括以下四个研究内容:
(1)提出基于自适应值函数分布边界的强化学习方法,解决强化学习中由于策略鲁棒性不强导致的样本低效问题。智能体面对存在随机性或不确定性的环境时,容易受到任务无关因素的影响,从而做出不合理决策,使算法变得样本低效。该方法利用已采集样本对值函数完整分布进行建模,学习到有效的状态特征表示;同时利用自举法获取到值函数分布边界的置信区间,自适应地更新分布边界;最后引入目标策略平滑方法。实验结果表明,该方法能有效提升策略鲁棒性和估计的准确性,在仿真机器人控制这类易受任务无关因素影响的环境中表现稳定,实现了样本高效的强化学习算法。
(2)提出基于多样化预测轨迹的有模型强化学习方法,解决强化学习中由于策略缺乏规划能力导致的样本低效问题。智能体在面对决策步数长且状态不可逆转的环境时,若智能体缺乏规划能力盲目行动会增加完成任务的难度,甚至使任务无法完成,增加交互次数。该方法利用样本隐含的环境转移信息,以监督学习方式对环境模型进行建模,接下来通过拟合的环境模型和一种探索型想象策略生成关于未来的多样化预测轨迹,然后将这些轨迹作为额外的信息一同输入到策略网络中,使策略具备规划能力和预测能力,能够做出符合长远利益的决策。实验结果表明,该方法通过建立环境模型,并生成预测轨迹,在推箱子这类状态不可逆转,需要提前规划的游戏中能展现出较高的样本效率。
(3)提出基于状态覆盖的分层强化学习方法,解决复杂环境中由于策略探索能力不强导致的样本低效问题。智能体在面对奖励稀疏或者存在欺骗性奖励的环境时,容易陷入到无意义的交互之中,导致采集到大量重复,对训练无帮助的低价值样本,使算法样本低效。该方法基于分层强化学习框架,将动作序列抽象成技能。并利用样本建立生成模型,衡量状态新奇程度,以此构造信息熵内在奖励函数,鼓励智能体发现彼此差异化较大的技能,同时最大化技能的访问状态差异,增加执行技能时的状态覆盖率,促进对于环境的探索。实验表明该方法在仿真机器人跨栏这类需要积极探索,具备分层结构的任务中取得了较好的效果,能够鼓励智能体访问陌生的状态,避免其陷入到某一区域当中,提升了算法样本效率。
(4)提出基于二次采样的深度Q学习方法,解决由于经验回放难以采样到促进训练的样本导致的样本低效问题。经验回放是增强强化学习方法训练稳定性的重要手段,然而实际训练时经验池往往十分庞大,且不同样本对于训练的促进作用也是不同的。该方法分析经验池中样本所在序列的累积回报分布,在此基础上考虑样本训练时序误差分布,得到序列采样优先级和样本采样优先级,以上述两种优先级对经验池样本进行采样,构造训练样本集。实验结果表明,该方法能从庞大经验池中挑选出加速网络收敛,促进策略训练的样本,提升了算法在雅塔利视频游戏中的样本效率。
最后本文将提出方法在模拟冰壶环境中进行了验证。首先构造冰壶比赛仿真系统,包括运动模拟和碰撞检测等模块;然后设计智能体策略训练方法,由于冰壶比赛环境中充满不确定性和随机性,且策略搜索空间庞大,这些因素严重影响了算法样本效率,给冰壶比赛策略的学习带来了挑战。为此,本文将基于自适应值函数分布边界的强化学习方法和基于二次采样的深度Q学习方法结合起来训练冰壶环境下的智能体策略。实验结果表明,结合后的方法能够有效应对这些挑战,学习到具备良好性能的策略,提高了算法在该问题中的样本效率。