关键词:
目标检测
位姿估计
模仿学习
强化学习
轨迹规划
摘要:
随着近年来机器人应用领域的飞速拓展,通过观察人类示教过程自动掌握新任务的方法成为机器人领域的又一个研究热点。总体而言,该领域主要涉及示教信息获取和机器人任务学习两个方面的内容。伴随机器人技术的不断革新,示教信息的获取方法从传统的基于离线编程和示教盒的方式转变为后来的拖动示教方式,进而又发展为现阶段的基于视觉观察的示教方式。示教任务中操作物体的检测与位姿估计是视觉观察的核心内容。不同于一般视觉感知任务,示教过程涉及的目标物体特征多样且更换频繁。针对这些特点,基于多模态局部特征RGB-D patch的算法具有更好的应用前景。然而现有RGB-D patch特征不具备旋转不变性,并且对于前景遮挡与背景干扰问题较为敏感。由于这些问题在示教场景内不容忽视,本文提出一种具旋转不变性且对环境干扰具有鲁棒性的局部特征E-patch。E-patch以前景深度边缘点为中心沿深度梯度方向采样,从而具有良好的旋转不变性。依据深度检测结果剔除E-patch中的前景遮挡和背景干扰区域,从而提升了对环境干扰的鲁棒性。在孪生网络框架下训练基于CNN建立的特征编码器,以实现E-patch相似性度量向特征向量欧氏距离空间的映射。结合特征匹配和位姿投票算法的优点,本文提出一种基于E-patch特征的目标检测与位姿估计算法。在离线阶段中,借助Ch Ar Uco标定板重构目标物体的网格模型之后,从均匀分布的采样视角得到RGB-D渲染视图,最后利用提取自各渲染视图的E-patch构建特征码书。在线阶段则通过特征匹配和位姿投票算法框架生成假设位姿。针对物体模型中不可见点对ICP配准结果的干扰,仅基于可视曲面实现假设位姿的检验与细化。在机器人任务学习方面,模仿学习方法以复现人类示教任务为目标,但通常脱离机器人系统的实际情况;强化学习方法面向实际系统但因巨大的动作探索空间而面临维数灾难的问题。本文结合二者优势提出一种兼顾便捷性与可靠性的机器人任务学习方法。首先,示教人员仅需完成单次的面向视觉观测的示教工作,之后基于DMPs框架通过对示教信息的模仿学习与泛化实现机器人动作探索空间的缩减,最后采用DDPG强化学习算法完成机器人动作策略的优化。为提升训练过程中动作策略的成功率,基于点吸引子系统设计运动控制器。为验证本文任务学习方法的效果,基于UR机器人、Kinect深度传感器和上位机搭建学习拾放任务的实验平台。实验过程中首先基于模仿学习与强化学习算法训练得到机器人的运动控制器,之后基于视觉感知算法估计初始场景内操作目标的空间位姿,最后将其代入运动控制器驱动UR机器人完成拾放任务。各项实验结果均体现了本文所提出的基于视觉示教的机器人任务学习方法的可行性与有效性。