原始题目 | OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields |
---|---|
中文名称 | Openpose:使用 Part Affinity Fields 来 实时 多人 2D 姿态估计 |
发表时间 | 2016年11月24日 |
平台 | CVPR 2017 |
来源 | 卡内基梅隆大学机器人研究所 |
文章链接 | https://arxiv.org/abs/1611.08050 https://readpaper.com/pdf-annotate/note?pdfId=4532079306498269185¬eId=1797460594318323968 |
开源代码 | https://github.com/CMU-Perceptual-Computing-Lab/openpose https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation |
本文以 DOI 10.1109/TPAMI.2019.2929257 论文版本进行解析。
题目
Part Affinity Fields:?
作者
摘要
- 实时多人 2D 姿态估计 是使机器能够理解图像和视频中的人的关键组成部分。
- 在这项工作中,我们提出了一种实时检测图像中多人 2D 姿态的方法。
- 本文提出的方法使用 一个非参数表示,我们称之为 Part Affinity Fields (PAFs),以学习将身体部位与图像中的个体关联起来。
- 这种自下而上的系统实现了很高的准确性和实时性,无论图像中有多少人。
- 在之前的工作中,PAFs 和身体部位位置估计是在训练阶段同时改进的。
- 我们证明了 仅对 PAF 进行细化,而不是同时对 PAF 和 身体部位位置 进行细化,可以显著提高运行时性能和准确性。
- 基于我们已经公开发布的一个内部注释脚数据集,我们还提出了第一个结合身体和脚的关键点检测器。
- 我们表明,与按顺序运行检测器相比,组合检测器不仅减少了推断时间,而且还保持了每个组件单独的准确性。
- 这项工作在OpenPose的发布中达到高潮,这是第一个用于 多人2D姿态检测 的开源实时系统,包括 身体、脚、手和面部关键点。
6 结论
实时多人 2D 姿态估计是使机器从视觉上理解和解释人类及其交互的关键组成部分。
- 本文提出一种关键点关联的显式非参数表示,对人体四肢的位置和方向进行编码。
- 其次,设计了一个联合学习部件检测和关联的架构。
- 第三,证明了贪婪解析算法足以产生高质量的人体姿态解析,并且无论人数多少都保持效率。
- 第四,我们证明了 PAF 优化远比 PAF 和身体部位位置优化相结合 更重要,从而大大提高了运行时性能和精度。
- 第五,我们表明,将身体和脚的估计合并到一个模型中,可以提高每个组件的准确性,并减少按顺序运行它们的推断时间。
- 我们已经创建了一个包含 15K 个 foot keypoint 实例的 foot keypoint 数据集,我们将公开发布它。
最后,我们将这项工作开源为 OpenPose[4],这是第一个用于身体、脚、手和面部关键点检测的实时系统。如今,该库被广泛用于许多涉及人类分析的研究课题,如人类再识别、重新定位和人机交互。此外,OpenPose 已被纳入 OpenCV 库[66]。
1. 引言
在本文中,我们考虑了获取图像和视频中人物的详细理解的一个核心组件: 人体 2D 姿态估计,或定位解剖关键点或“部分”的问题。
人类的估计主要集中在寻找个体的身体部位。
在图像中推断多人的姿势是一组独特的挑战。
- 首先,每张图像可能包含数量未知的人,这些人可以出现在任何位置或比例。
- 其次,人与人之间的互动会产生复杂的空间干扰,由于接触、遮挡或肢体关节,使部分之间的联系变得困难。
- 第三,运行时的复杂性会随着图像中人的数量而增加,这使得实时性能成为一个挑战。
一种常见的方法是采用人体检测器,并对每次检测执行单人姿态估计。
- 这些自上而下的方法直接利用现有技术进行单人姿势估计,但会受到早期承诺的影响: 如果人体检测器失败——当人们靠近时很容易失败——则无法恢复。
- 此外,它们的运行时间与图像中的人数成正比,对于每个人的检测,都运行一个单人姿态估计器。
相比之下,自底向上的方法很有吸引力,因为它们为早期承诺提供了鲁棒性,并有可能将运行时复杂度与图像中的人数解耦。
- 然而,自底而上的方法不直接使用来自其他身体部位和其他人的全局上下文线索。
- 最初的自底向上方法([1],[2])并没有保持效率上的提高,因为最终的解析需要昂贵的全局推理,每个图像需要几分钟。
本文提出一种有效的多人姿态估计方法,在多个公共基准上具有竞争的性能。
本文提出通过 Part Affinity Fields -PAFs (一组2D向量场) 的第一个自底向上的关联分数表示,编码了图像域上肢体的位置和方向。
我们证明,同时推理这些检测和关联的自下而上表示,为一个贪婪解析编码了足够的全局上下文,以实现高质量的结果,而计算成本只有一小部分。
这个手稿的早期版本出现在[3]中。这个版本有几个新的贡献。
- 首先,我们证明了 PAF 的细化对于最大化精度是至关重要的,而身体部位预测的细化并不是那么重要。我们增加了网络深度,但去掉了身体部分的细化阶段(第3.1节和3.2节)。这种改进的网络将速度和准确度分别提高了大约200%和7%(第5.2节和5.3节)。
- 其次,我们提供了一个带有 15K 个已公开发布的人类足部实例的注释足部数据集(第4.2节),并且我们表明,可以训练具有身体和足部关键点的组合模型,在保持仅身体模型的速度的同时保持其准确性(第5.5节)。
- 第三,我们通过将该方法应用于车辆关键点估计任务(第5.6节)来证明该方法的通用性。
- 最后,这项工作记录了 OpenPose 的发布[4]。这个开源库是第一个可用于 多人 2D 姿势检测的实时系统,包括身体,脚,手和面部关键点(第4节)。
- 我们还包括与 Mask R-CNN[5]和 Alpha-Pose[6]的运行时比较,显示了我们自下而上方法的计算优势(第5.3节)。
2 RELATED WORK
单人姿态估计
铰接式人体姿态估计的传统方法是对人体部位的局部观察和它们之间的空间依赖关系的组合进行推断。
关节姿态的空间模型要么基于树形结构的图形模型[7],[8],[9],[10],[11],[12],[13],它们参数化编码了遵循运动链的相邻部分之间的空间关系,要么基于非树模型[14],[15],[16],[17],[18],它们增加了树结构的额外边缘,以捕获遮挡、对称和远距离关系。
为了获得可靠的人体部位局部观测,卷积神经网络(CNNs)被广泛应用,并显著提高了人体姿态估计[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29]、[30]、[31]、[32]的精度。
- Tompson等人[23]使用了具有图形模型的深度架构,其参数与网络联合学习。
- Pfister等人[33]通过设计具有大感受野的网络,进一步使用 CNNs 来隐式捕捉全局空间依赖关系。
- Wei 等人提出的卷积姿态机架构[20]使用了基于顺序预测框架[34]的多阶段架构; 迭代地合并全局上下文以改进部分置信度图,并保留先前迭代的多模态不确定性。在每个阶段结束时执行中间监督,以解决训练过程中梯度消失的问题[35],[36],[37]。
- Newell等人[19]还表明,中间监督在堆叠的沙漏结构中是有益的。
然而,所有这些方法都假设一个人,其中目标人物的位置和比例是已知的。
多人姿态估计
对于多人姿态估计,大多数方法[5],[6],[38],[39],[40],[41],[42],[43],[44]采用自顶向下的策略,首先检测人体,然后在每个检测区域上独立估计每个人的姿态。
尽管这种策略使得针对单人情况开发的技术可以直接适用,但它不仅受到早期行人检测的影响,而且无法捕捉不同人之间的空间依赖关系,这需要全局推理。
一些方法已经开始考虑人与人之间的依赖关系。
- Eichner等人[45]扩展了图像结构,以考虑到一组交互的人和深度排序,但仍然需要一个人检测器来初始化检测假设。
- Pishchulin等人[1]提出了一种自下而上的方法,联合标记部件检测候选对象并将其关联到个人,从检测部件的空间偏移中回归成对分数。该方法不依赖于行人检测,然而,在全连通图上求解所提出的整数线性规划是一个 NP-hard 问题,因此单幅图像的平均处理时间在几个小时左右。
- Insafutdinov等人[2]建立在[1]上,基于ResNet[46]和图像相关的成对分数,具有更强的部分检测器,并通过增量优化方法大大提高了运行时间,但该方法仍然需要花费几分钟每张图像,最多限制为150个部分建议。[2]中使用的成对表示,即每对身体部位之间的偏移向量,很难精确回归,因此需要一个单独的逻辑回归将成对特征转换为概率分数。
在早期的工作[3]中,我们提出了 part affinity fields(PAFs),这是一种由一组流场组成的表示,用于编码可变数量的人身体部位之间的非结构化成对关系。与[1]和[2]相比,不需要额外的训练步骤,就可以有效地从 PAFs 中获得成对分数。这些分数足以使贪婪解析获得实时性能的高质量多人估计结果。
- 在这项工作的同时,Insafutdinov等人[47]进一步简化了他们的人体部位关系图,以更快地在单帧模型中进行推理,并将关节人体跟踪制定为部位建议的时空分组。
- 最近,Newell等人[48]提出了关联嵌入,可以认为是代表每个关键点组的标签。他们将具有相似标签的关键点分组为个人。
- Papandreou等人[49]提出检测单个关键点并预测它们的相对位移,允许贪婪解码过程将关键点分组为人物实例。
- Kocabas等人[50]提出了一种姿态残差网络,该网络接收关键点和行人检测,然后将关键点分配到检测到的行人边界框。
- Nie等人[51]提出使用从关键点候选到图像中人物的质心的密集回归来划分所有关键点检测。
在这项工作中,我们对我们早期的工作[3]进行了一些扩展。
- 我们证明了 PAF 细化对于高精度来说是关键和充分的,在增加网络深度的同时去掉了身体部分置信度图细化。这将导致一个更快、更准确的模型。
- 我们还介绍了第一个结合身体和脚的关键点检测器,它是由一个注释的脚数据集创建的,该数据集将公开发布。
- 我们证明,与独立运行两种检测方法相比,结合两种检测方法不仅减少了推断时间,而且还保持了它们各自的准确性。
- 最后,我们提出了OpenPose,这是第一个用于实时身体、脚、手和面部关键点检测的开源库。
3 METHOD
图 2 说明了我们方法的整体 pipeline。该系统以大小为 w × h 的彩色图像作为输入(图 2a),并为图像中的每个像素生成解剖关键点的 2D 位置(图 2e)。首先,前馈网络预测身体部位位置的一组 2D 置信度图 S(图 2b)和一组部分亲和场 (PAF) 的 2D 向量场 L,它对部分之间的关联程度进行编码(图 2c)。
参考:https://blog.csdn.net/magic_ll/article/details/108105054
标签:身体,精读,检测,论文,2D,图像,Openpose,姿态,关键点 From: https://www.cnblogs.com/odesey/p/17430006.html