关键词:
人体姿态估计
稀疏表示
Dempster-Shafer融合理论
姿态距离度量
无监督学习
摘要:
人体姿态估计,泛指以接触或非接触式传感器所获取的运动加速度、图像、视频等数据为基础,计算人体骨架或关节点位置的技术。随着计算机图形学、计算机视觉、模式识别及人机交互等领域技术的发展,人体姿态估计及姿态距离度量学习,已广泛地应用于动作识别、动作仿真、视频监控分析、行为检索等方面,并成为计算机视觉、模式识别及人机交互等领域的重要研究内容。非接触式人体姿态估计方法,按照输入数据通常可分为基于彩色图像的方法和基于深度图像的方法。前者以可见光图像为数据基础,容易受到背景、光照、遮挡等因素的影响;后者以结构光或飞行时间法获取的场景景深为数据基础,虽然在一定程度上避免了可见光图像受环境光照等因素影响的困扰,但由于深度图像存在噪声、空洞、特征不明显等数据缺陷。基于深度图像的人体姿态估计仍是模式识别领域极具挑战性的研究课题。此外,传统的基于骨架点信息的人体姿态距离度量学习方法,通常以人体骨架点的欧氏距离模型或稀疏模型为基础,且需要大量人工标注的相似/不相似的人体姿态数据对作为训练数据。然而,考虑到运动人体动作行为的复杂性,以及部分人体动作数据库含有大量的噪声数据或低置信度数据,传统的欧氏距离模型或稀疏模型难以精确刻画运动人体的姿态相似度。基于上述问题,本文以面向深度图像、彩色与深度图像融合的高精度人体姿态估计为目标,研究了深度图像像素特征表示、彩色与深度图像特征融合、无监督人体姿态距离度量学习等方法,并研发完成了人体运动感知计算系统。本文的主要工作包括以下几方面:1.针对传统面向深度图像的人体姿态估计方法中像素特征刻画不准确问题,提出了基于深度差与测地距离融合特征的深度图像人体姿态估计模型。传统基于深度图像的姿态估计通常将像素对的深度差特征与随机决策森林分类器结合,而深度差特征虽然计算简单,但只是像素对之间局部相对深度属性的描述,难以准确描述具有复杂形变、自遮挡、高噪声等特点的非刚性人体部件间的连接关系。本文提出的联合特征与深度图像超像素相结合,描述了像素的上下文信息,减少了噪声和非均匀深度数据的干扰,不仅保证了特征提取和随机决策森林(RDF)的训练效率,而且提高了人体部位的分类精度。论文同时还提出基于RDF的部位分类与基于聚类特征的稀疏回归相结合的位姿估计框架,将超像素融合特征与组件聚类中心的特征结合在一起,在不同质量和分辨率的数据集上的结果表明了方法的鲁棒性、高效性和准确性。2.针对传统面向彩色与深度图像融合的姿态估计方法中特征融合问题,提出了基于Dempster-Shafer外观-形状融合模型的彩色-深度图像人体姿态估计方法。传统基于彩色-深度图像的姿态估计方法将HOG、SIFT、轮廓描述子等特征作为彩色图像骨架点特征,将深度差或其他深度图像特征算子作为深度图像骨架点特征,将特征进行拼接后通过训练评分模型实现人体姿态估计,这种特征融合手段难以精确地将可见光图像与深度图像的特性进行高效互补。可见光图像与深度图像这两个不同信息源提供的图像特征,一般都是片面、不精确、不完整的,甚至有可能是完全矛盾的。本文提出的Dempster-Shafer外观-形状融合模型,借助Dempster-Shafer概率融合理论,将彩色图像信息源与深度图像信息源的HOG特征与轮廓特征以不确定性模型进行融合,充分利用了可见光图像与深度图像的信息源特征的互补性,实现了面向RGB-D数据的高效人体姿态估计。3.针对传统的人体姿态距离度量学习需要大量标记样本、学习模型不精确问题,提出了基于多层次稀疏模型的无监督人体姿态距离度量学习模型。考虑到人体姿态的相似程度具有多层次特性,即:由头部、手脚肢端及躯干构成的粗略姿态,以及由手腕、手肘、肩部、脚腕、膝盖等构成的精细姿态,该多层次稀疏模型将各个姿态数据进行分层次稀疏表示,并学习保持该稀疏表示下残差向量在相应的姿态度量最小,以此保持人体姿态在不同尺度意义下的相似距离。与现有基于学习的人体姿态距离度量的方法相比的实验结果表明,本文所提出的无监督模型无需任何带标签的姿态数据,学习的姿态距离度量在现有的动作序列姿态检索方面取得较高的检索精度。4.设计与实现了人体运动感知计算系统。该系统通过模块化设计把数据采集、人体部位标定、姿态估计及结果展示等功能集成到一个平台中,为人体运动感知的相关研究提供了一个集成化的环境。作为高精度体感仪器项目的应用平台,验证了该系统的实用性。实验表明了本文所提出的人体姿态估计算法的准确性、高效性,所提出的姿态距离度量学习模型的可行性、有效性。