关键词:
强化学习
奖励学习
策略多样性
行为表征
双曲空间
摘要:
强化学习通过自主交互和试错机制,能够在动态、不确定的环境中优化长期收益,解决序列决策问题。具体而言,强化学习通过智能体与环境的持续交互,智能体根据当前状态选择动作,并根据环境反馈的奖励信号和状态变化不断调整策略。其核心目标是通过试错和经验积累,逐步学习出一种能够在长期内最大化累积奖励的策略,从而指引智能体在不同状态下采取最佳行为。由于其高效的决策优化能力,强化学习已广泛应用于机器人控制、游戏策略设计、自动驾驶和资源分配等领域。然而,面向复杂的现实环境,强化学习在策略学习的多个关键环节仍面临诸多亟待解决的问题:1)奖励获取难:在实际问题中奖励函数通常难以清晰定义,尤其是在连续控制任务中,由于动作空间的无限性进一步增加了奖励学习的难度;2)策略欠鲁棒:复杂的实际应用环境通常充满随机性,单一或同质化的策略难以应对随机性带来的变化,导致表现不稳定的问题;3)动作高复杂:在复杂环境中智能体的动作展现出层次化、嵌套式的依赖结构,表征能力不足会导致对智能体行为的建模不精确,从而影响策略性能。
鉴于此,本文开展复杂环境下的强化学习方法研究,探索利用状态转换关系构建图结构解决环境奖励缺失问题,采用多样化策略扩散方式实现解空间扩展提升策略鲁棒性,利用智能体状态动作演化过程构成的层次化几何结构学习有效的策略行为表征,具体研究内容和贡献总结如下:
(1)基于图结构的连续控制任务直推式奖励推理
奖励是强化学习中训练有效策略的关键要素。然而,在实际应用中,奖励函数往往难以清晰定义,同时由于交互成本或其他限制,智能体与环境之间的交互次数通常受到严格约束。这种情况下,奖励学习变得十分困难,尤其是在连续控制任务中,由于动作空间的无限性进一步增加了奖励学习的复杂性。这种挑战在医疗保健和机器人技术等领域尤为突出。为此,本文提出基于图结构的直推式奖励推理算法。该算法利用现有数据和有限的奖励标注来构建奖励传播图,并基于图结构信息传播的上下文属性来推断未标记数据的奖励。实验表明,应用该算法推断的奖励训练智能体策略,在机器人运动和机器人操作任务上均展现了策略性能的提升。
(2)非马尔科夫任务扩散多样性策略
策略多样性是指智能体在同一任务或环境中能够开发和使用多种不同的策略实现目标,增强了智能体应对环境变化的成功率。强化学习通常以马尔科夫决策过程作为理论基础。然而,在许多现实场景中,奖励取决于智能体的状态和动作历史,导致非马尔科夫决策过程。在策略初始化的前提下,由于历史信息和时间依赖性的变化,非马尔科夫决策过程可能会有非结构化的扩散解空间,这导致在非马尔科夫决策过程中解决方案的封闭形式不等价。为此,本文提出非马尔科夫任务扩散多样性策略算法,该算法通过在策略更新过程中逐步突破当前解空间的边界,实现解空间的扩展,从而增强策略的多样性。具体而言,算法对状态和动作序列进行建模,学习解空间中的策略嵌入,并堆叠策略嵌入构建分散矩阵作为策略多样性的度量,以引导策略在解空间中的扩散,最终生成一组多样化的策略。实验结果表明,该算法能够训练出具备多样化策略且鲁棒性强的智能体,并在多个任务中取得了显著成效。
(3)利用几何结构建模智能体行为
在多智能体环境中,理解其他智能体的行为对提升策略性能至关重要,其关键在于对智能体行为准确建模。行为建模的核心在于捕捉其动作之间的顺序和依赖关系。由于每个动作都会影响后续状态,这种相互依赖关系通常呈现出层次化和嵌套的树状结构。然而,在欧式空间中建模树状数据容易产生失真,导致动作结构信息损失。为此,本文提出了利用几何结构建模智能体行为算法,在双曲空间中对智能体行为进行建模。双曲空间因其几何特性,具有对层次化结构数据表征的天然优势。算法将智能体行为投影到庞加莱球中,并利用双曲神经网络学习智能体的行为嵌入,实现捕捉智能体行为的层次化特性及其他重要特征。实验结果表明,该算法在多智能体合作和竞争环境中均表现出优异的效果,展示了双曲行为嵌入在实现有效决策方面的潜力。