Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods(单目人体姿态估计)
总述Human Pose Estimation(HPE)
文章基于深度学习的2D/3维人体姿态估计方法进行综述,而不涉及深度、红外光源、射频信号、多视图输入。
人体姿态估计可以应用的范围:动作/活动识别、动作检测、人体跟踪、电影和动画、虚拟现实、人机交互、视频监控、医疗救护、自动驾驶、运动分析。
单目人体姿态估计的独特特点所对应面临的挑战
1.人类灵活的身体意味着关键点之间有着更复杂的内在关联和更高自由度的肢体动作,这对模型训练提出了更高的挑战。
2.人体的着装意味着各式各样的身体外形。
3.复杂的环境可能会导致前景信息难以提取(隐藏在背景中的人),或者是进行多人检测时,不同个体间的相互遮挡会导致检测难度激增;同样地,相机的拍摄位置和角度,都会增加单目估计的难度。
人体姿态估计方法与人体模型的分类
人体姿态估计分类
graph LR A[人体姿态估计方法] A-->A1 A-->A2 A1[2D HPE] A1-->B A1-->C A2[3D HPE] A2-->D A2-->E B[2D Single] C[2D Multiple] D[3D Single] E[3D Multiple] F[根据是否使用人体模型] F-->使用人体模型结构的先验知识,高位参数化空间回归方式优化 F-->从输入源到人体姿势空间映射_基于学习_或_基于示例_,更快但对于未训练过的姿势,鲁棒性差 G[根据预测的出发点] G-->首先检测人并在边界框中生成人的位置,然后对每个人进行姿态估计,人数增加计算量增加 G-->首先预测输入图像中每个人的所有身体部位,通过人体模型拟合或其他算法对其进行分组,计算量恒定 H[基于不同问题的表述] H-->直接将输入图像映射到人体关节坐标或人体模型参数 H-->将人体各部位作为检测目标,基于两种常用的表示方法:图像块和关节位置热图 I[根据训练的方法] I-->通过使用端到端网络将输入图像映射到人体姿势 I-->在多个阶段中预测人体姿势,并伴有中间监督 B-->生成方法-->F B-->判别方法-->F D-->基于回归-->H D-->基于检测-->H D-->单阶段-->I D-->多阶段-->I E-->自顶向下-->G C-->自顶向下 E-->自底向上-->G C-->自底向上人体模型
人体模型是人体姿态估计的关键组成部分。人体是一个柔性的、复杂的非刚性物体,具有运动结构、体形、表面纹理、各部位或各关节的位置等特性。
一个成熟的人体模型不一定要包含所有的人体属性,而应该满足特定任务的要求来建立和描述人体姿势。基于不同层次的表示和应用场景,如图2所示,人体姿态估计中有三种常用的人体模型:基于骨架的模型、基于轮廓的模型和基于体积的模型。
1.基于骨架的模型:也称为棍状模型或运动学模型,表示一组关节(通常在10到30之间)的位置以及人体骨架结构之后相应的肢体方向。基于骨架的模型也可以描述为一个图,其中顶点指示骨骼结构中关节的约束和边缘编码约束或关节的先验连接。
特点:简单灵活,广泛应用
缺点:缺乏纹理信息,即没有人体的宽度和轮廓信息。
2.基于轮廓的模型:广泛应用于早期的人体姿态估计方法中,它包含了人体肢体和躯干的大致宽度和轮廓信息。人体各部分用人体轮廓的矩形或边界近似表示。广泛使用的基于轮廓的模型包括纸板模型和活动形状模型。
3.基于体积的模型:三维人体形状和姿势通常由具有几何形状或网格的基于体积的模型来表示。早期用于建模身体部位的几何形状包括圆柱、圆锥等。基于体积的现代模型以网格形式表示,通常通过3D扫描捕获。广泛使用的基于体积的模型包括人的形状完成和动画,蒙皮多人线性模型和统一的变形模型。
二维人体姿态估计
二维人体姿势估计可根据单目图像或视频来计算人体关节的位置。在深度学习对基于视觉的人体姿势估计产生巨大影响之前,传统的2D人体姿态估计算法采用手工特征提取和复杂的人体模型来获取局部表示和全局姿势结构。
二维单人姿态估计
2D单人姿势估计是在输入图像中定位单人的身体关节位置。对于具有更多人的图像,需要进行预处理以裁剪原始图像,以使输入图像中只有一个人,例如使用上身检测器或全身检测器,然后根据带注释的人的中心和身体比例从原始图像中裁剪。
将深度学习引入人体姿势估计的早期工作主要是通过简单地用神经网络替换框架的某些组件来扩展传统的人体姿态估计方法。根据人类姿势估计任务的不同表述,使用CNN提出的方法可分为两类:基于回归的方法和基于检测的方法。基于回归的方法尝试通过端到端框架学习从图像到运动身体关节坐标的映射,并且通常直接产生关节坐标。基于检测的方法旨在预测身体部位的大概位置或关节,通常由一系列矩形窗口(每个包括特定的身体部位)或热图(每个图都通过以关节位置为中心的2D高斯分布来指示一个关节位置)进行监督。
这两种方法中的每一种都有其优点和缺点。 仅是一个点的直接回归学习是一个难题,因为它是一个高度非线性的问题,并且缺乏鲁棒性,而热映射学习则由密集的像素信息监督,从而获得了更好的鲁棒性。与原始图像尺寸相比,由于CNN中的池化操作,热图表示的分辨率要低得多,这限制了联合坐标估计的准确性。 从热图获得联合坐标通常是不可微的过程,会阻塞要端到端训练的网络。
表3总结了2D单人姿势估计的最新代表性工作,最后一列是MPII测试集上PCKh@0.5得分的比较。
关键点估计之PCK,PCKh,PDJ评价度量
PCK(Percentage of Correct Keypoints):关键点正确估计的的比例
PCKh
三维人体姿态估计
三维单人姿态估计
三维人体姿态估计是从图像或其他输入源中预测人体关节在三维空间中的位置。
尽管带有深度、光学传感器、带有多个摄像头的产品已被用于3D身体姿态估计,但它们工作的环境都十分有限,故单目摄像机作为应用最广泛的传感器,对三维人体姿态估计具有重要意义。而基于单目输入的三维人体姿态估计的进展可以进一步改善约束环境下的多视点三维人体姿态估计。
三维单人姿态估计
与二维人体姿态估计相比,3D-人体姿态估计更具挑战性,因为它需要预测人体关节的深度信息。另外,3D-人体姿态估计的训练数据也不像2D-人体姿态估计那样容易获得。现有的数据集大多是在有限的可推广的受限环境下获得的。对于单人姿势估计,通常提供图像中的人的边界框,因此不需要结合人检测过程。在本节中,我们将三维单人姿势估计方法分为无模型和基于模型两类。
无模型方法
无模型方法不使用人体模型作为预测目标或中间线索。它们大致可分为两类:1)直接将图像映射到三维姿态;2)根据二维姿态估计方法得到的中间预测的二维姿态估计深度。
直接从图像特征估计三维姿态的方法通常包含很少的约束。Li和Chan采用浅层网络直接回归三维关节坐标,并使用滑动窗口进行身体部位检测的同步任务。Pavlakos等人用人体关节的额外顺序深度作为约束来训练网络,通过这些约束,2D人体数据集也可以输入顺序深度注释。Li等人设计了一种嵌入子网络学习潜在姿势结构信息来指导三维关节坐标映射。该子网络可以为输入图像姿势对分配匹配分数,并具有最大的边际代价函数。Tekin等人预先训练了一个无监督的自动编码器来学习3D姿势的高维潜在姿势表示,以添加关于人体的隐式约束,然后使用浅层网络来学习高维姿势表示。Sun等人提出了一种结构感知回归方法。他们设计了一种基于骨骼的表示方法,它包含了身体结构信息,比仅仅使用关节位置更稳定。
基于模型的方法
基于模型的方法通常采用一个参数化的人体模型或模板来从图像中估计人体的姿势和形状。本文不包括早期的几何模型。最近的模型是通过对不同人群的多次扫描或不同身体模型的组合来估计的。这些模型通常由单独的身体姿势和形状组件进行参数化。一些工作采用了SMPL的身体模型,并试图从图像中估计3D参数。例如,Bogo等人将SMPL模型拟合到估计的2D关节,并提出了一种基于优化的方法从2D关节恢复SMPL参数。Tan等人通过首先训练解码器以使用合成数据从SMPL参数预测轮廓,然后使用训练的解码器学习图像编码器来推断SMPL参数。训练后的编码器可以根据输入图像预测SMPL参数。
标签:基于,--,模型,估计,单目,姿态,人体 From: https://www.cnblogs.com/hugaotuan/p/17064626.html