关键词:
逆强化学习
正则化
深度学习
视觉导航
极限学习机
摘要:
当前,机器人等无人平台的应用广泛,而如何赋予机器更高的自主性与智能性是当前研究的重要目标。移动机器人导航控制一直是机器人最基础的任务之一,经典导航控制方法环节复杂,需要大量的人力物力资源。如何让机器人在导航控制中能够自我学习和适应,提升导航控制的智能性,是一个值得研究的问题。基于强化学习的视觉导航方法不需要精确估计机器人的实时位置,能够基于当前观测的图像输入实现端到端的动作输出,这种方法类似于人类的思维方式,通过在环境中不断的试错训练调整自身策略,从而提高导航控制能力。然而当前,强化学习方法依旧面临诸多问题,不断的试错使得强化学习对数据的利用率较低,需要花费大量时间进行训练;针对不同任务难以对奖励函数进行合适的设置;对场景变换的适应和迁移能力较差等等。而模仿学习能够利用专家数据为智能体提供一定的指导借鉴,从而提升强化学习的训练效率与适应性。模仿学习常见的方法有很多,其中逆强化学习方法是通过从专家轨迹或专家策略当中学习奖励函数,从而指导策略的更新。本文主要针对上述问题,对基于视觉的端到端机器人导航控制问题展开研究。本文的主要研究工作如下:(1)针对移动机器人的视觉导航控制问题,运用逆强化学习方法改善导航控制的性能。针对机器人导航控制任务中奖励函数较难设置、训练效率不高的问题,利用逆强化学习能够从专家轨迹中学习奖励函数的特点来帮助智能体在训练时获得更好的奖励反馈,从而指导智能体在训练时加快学习效率,提升导航控制的准确性。通过在AI2-THOR仿真平台的不同环境场景中设置多个目标点进行导航控制,测试提出方法的性能。结果表明,与随机智能体、基于强化学习的导航方法等方法相比,提出的基于逆强化学习的移动机器人导航控制方法具有更快的收敛速度,机器人导航到目标点的实际路径长度有所缩小,导航控制的SPL(Success Weighted by Path Length)有所提升,使得导航控制的轨迹更加接近于最优路径。(2)针对移动机器人视觉导航控制的泛化性和迁移性能,提出结合极限学习机的逆强化学习导航控制方法和基于奖励网络的逆强化学习导航控制方法。不同的专家轨迹有不同的起点、终点和路径,利用逆强化学习方法结合专家轨迹所得到的奖励函数在用于新的场景和目标点时效果会有所下降,从而限制了模型的适应性与迁移性,即此方法的泛化性能依旧较差。因此通过一定量的专家轨迹与其所对应的奖励函数,分别利用极限学习机和设计的奖励网络实现从状态中预测专家的奖励函数值,从而能够在没有对应目标点专家轨迹的未知任务中也提供更好地奖励反馈。通过设置新的目标点与新的场景两个任务对方法进行性能测试。实验结果表明,与基于强化学习的导航控制等方法相比,所提出的两种导航控制方法提升了在新任务上的导航准确率,缩小了与实际路径长度的误差,提升了SPL,证明了所提出的两种方法在改善泛化迁移性能上的有效性。(3)将正则化方法应用于基于极限学习机和奖励网络的逆强化学习导航控制方法上,进一步增强方法的泛化性能,同时减小算法的复杂度,提升训练速度和效率。利用特征降维和多响应稀疏回归的正则化方法对基于极限学习机的导航控制方法进行优化,利益熵正则化方法对基于奖励网络的导航控制方法进行优化,同样设置新的目标点与新的场景对方法进行性能测试。实验结果表明,与没有正则化的导航控制方法相比,所提出的基于正则化的极限学习机和奖励网络的逆强化学习导航控制方法减小了训练时间,加快了训练速度,同时进一步提升了方法对新场景任务的泛化迁移能力。