关键词:
强化学习
离线强化学习
表征学习
历史经验数据
分布偏移
摘要:
强化学习(Reinforcement learning,RL)通过智能体与环境在线交互来学习最优策略,近年来已成为解决复杂环境下感知决策问题的重要手段.然而,在线收集数据的方式可能会引发安全、时间或成本等问题,极大限制了强化学习在实际中的应用.与此同时,原始数据的维度高且结构复杂,解决复杂高维数据输入问题也是强化学习面临的一大挑战.幸运的是,基于表征学习的离线强化学习能够仅从历史经验数据中学习策略,而无需与环境产生交互.它利用表征学习技术将离线数据集中的特征表示为低维向量,然后利用这些向量来训练离线强化学习模型.这种数据驱动的方式为实现通用人工智能提供了新契机.为此,对近期基于表征学习的离线强化学习方法进行全面综述.首先给出离线强化学习的形式化描述,然后从方法、基准数据集、离线策略评估与超参数选择3个层面对现有技术进行归纳整理,进一步介绍离线强化学习在工业、推荐系统、智能驾驶等领域中的研究动态.最后,对全文进行总结,并探讨基于表征学习的离线强化学习未来所面临的关键挑战与发展趋势,以期为后续的研究提供有益参考.