关键词:
机器学习
离线强化学习
生成扩散技术
强化学习安全
摘要:
强化学习是一种基于试错的机器学习范式,近年来在解决复杂决策问题方面取得了快速进展,例如游戏、机器人控制和动画生成等领域强化学习算法不断涌现,其发展前景愈发广阔。但如何在自动驾驶、医疗决策、机器人等探索交互成本较高的真实环境下,实现环境探索与数据利用的平衡以及策略的安全性保障仍然存在一定的挑战。
离线强化学习依赖预先收集的静态数据集训练智能体,而无需与环境进行交互。通过充分利用离线静态数据,离线强化学习可以降低交互开销,避免不必要的环境风险,在安全性、效率性和数据重用等方面具有明显的优势。但离线强化学习在训练数据的质量和覆盖度方面存在高度依赖,数据和策略分布的偏移会导致其泛化性能较差,而缺乏与环境的交互探索能力则容易使系统陷入局部最优解。此外,离线数据的使用也使得准确估计奖励或价值函数变得困难。针对分布偏移和外推误差问题这一离线强化学习的核心挑战,目前的研究工作主要通过对分布外样本的价值预测进行惩罚,或者限制学习策略接近数据收集策略来缓解这些问题。然而,对策略价值函数施加的惩罚可能导致决策过于保守,从而引起策略优化的不稳定性和性能的下降。针对上述挑战,本文从生成扩散模型的角度对离线强化问题进行了深入研究,通过将决策任务构建为序列建模任务,提出了一种更加直接、有效的强化学习范式;同时提出了一套针对离线强化学习对抗扰动的自适应鲁棒提升框架,能够更好的保护离线强化学习的安全,具体而言:
(1)针对离线强化学习中现有分布偏移及外推误差等性能问题,本文将离线强化学习视为在状态-行为空间中进行有指导性的概率采样过程,提出一种更加简洁有效的离线强化学习方案(Pois DD),该方案首先训练基于泊松流的轨迹扩散模型,生成决策轨迹,然后通过奖励函数引导的迭代去噪过程来生成最佳轨迹,从而完成决策任务。本文使用D4rl基准数据集,在Mu Jo Co以及Adroit环境上开展实验,结果表明,Pois DD优于其他强大的离线强化学习基线,尤其在复杂环境和稀疏奖励场景下,能够依托其长视野建模能力,完成其他模型未完成的决策任务,展示了条件生成模型出色的决策能力,有效的缓解了离线强化学习分布偏移这一核心问题。
(2)针对现有的离线强化学习数据中毒,对抗扰动等安全问题,提出了一套基于扩散模型的数据净化防御框架(DDPU),该防御框架在决策的前半段过程中,通过扩散模型的前向加噪过程将对抗样本和正常样本映射到高斯分布,在去噪过程中净化分布,从而创建与特定任务目标一致的干净轨迹。之后将干净轨迹合并到数据池中一同训练决策模型,从而达到鲁棒性保护的目的。DDPU自适应净化框架,能够在有效防御对抗扰动的同时能够最大限度的保证模型的性能不受损害,大大提升了离线强化学习的鲁棒性。