首页 > 其他分享 >精读 Openpose 论文

精读 Openpose 论文

时间:2023-05-29 23:24:39浏览次数:52  
标签:身体 精读 检测 论文 2D 图像 Openpose 姿态 关键点

原始题目 OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
中文名称 Openpose:使用 Part Affinity Fields 来 实时 多人 2D 姿态估计
发表时间 2016年11月24日
平台 CVPR 2017
来源 卡内基梅隆大学机器人研究所
文章链接 https://arxiv.org/abs/1611.08050
https://readpaper.com/pdf-annotate/note?pdfId=4532079306498269185&noteId=1797460594318323968
开源代码 https://github.com/CMU-Perceptual-Computing-Lab/openpose
https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation

本文以 DOI 10.1109/TPAMI.2019.2929257 论文版本进行解析。

题目

Part Affinity Fields:?

作者

一作:https://zhec.github.io/

摘要


  • 实时多人 2D 姿态估计 是使机器能够理解图像和视频中的人的关键组成部分。
  • 在这项工作中,我们提出了一种实时检测图像中多人 2D 姿态的方法。
  • 本文提出的方法使用 一个非参数表示,我们称之为 Part Affinity Fields (PAFs),以学习将身体部位与图像中的个体关联起来。
  • 这种自下而上的系统实现了很高的准确性和实时性,无论图像中有多少人。
  • 在之前的工作中,PAFs 和身体部位位置估计是在训练阶段同时改进的。
  • 我们证明了 仅对 PAF 进行细化,而不是同时对 PAF 和 身体部位位置 进行细化,可以显著提高运行时性能和准确性。
  • 基于我们已经公开发布的一个内部注释脚数据集,我们还提出了第一个结合身体和脚的关键点检测器。
  • 我们表明,与按顺序运行检测器相比,组合检测器不仅减少了推断时间,而且还保持了每个组件单独的准确性。
  • 这项工作在OpenPose的发布中达到高潮,这是第一个用于 多人2D姿态检测 的开源实时系统,包括 身体、脚、手和面部关键点。

6 结论


实时多人 2D 姿态估计是使机器从视觉上理解和解释人类及其交互的关键组成部分。

  • 本文提出一种关键点关联的显式非参数表示,对人体四肢的位置和方向进行编码。
  • 其次,设计了一个联合学习部件检测和关联的架构。
  • 第三,证明了贪婪解析算法足以产生高质量的人体姿态解析,并且无论人数多少都保持效率。
  • 第四,我们证明了 PAF 优化远比 PAF 和身体部位位置优化相结合 更重要,从而大大提高了运行时性能和精度。
  • 第五,我们表明,将身体和脚的估计合并到一个模型中,可以提高每个组件的准确性,并减少按顺序运行它们的推断时间。
  • 我们已经创建了一个包含 15K 个 foot keypoint 实例的 foot keypoint 数据集,我们将公开发布它。

最后,我们将这项工作开源为 OpenPose[4],这是第一个用于身体、脚、手和面部关键点检测的实时系统。如今,该库被广泛用于许多涉及人类分析的研究课题,如人类再识别、重新定位和人机交互。此外,OpenPose 已被纳入 OpenCV 库[66]。


1. 引言


在本文中,我们考虑了获取图像和视频中人物的详细理解的一个核心组件: 人体 2D 姿态估计,或定位解剖关键点或“部分”的问题。

人类的估计主要集中在寻找个体的身体部位。

在图像中推断多人的姿势是一组独特的挑战。

  • 首先,每张图像可能包含数量未知的人,这些人可以出现在任何位置或比例。
  • 其次,人与人之间的互动会产生复杂的空间干扰,由于接触、遮挡或肢体关节,使部分之间的联系变得困难。
  • 第三,运行时的复杂性会随着图像中人的数量而增加,这使得实时性能成为一个挑战。

一种常见的方法是采用人体检测器,并对每次检测执行单人姿态估计

  • 这些自上而下的方法直接利用现有技术进行单人姿势估计,但会受到早期承诺的影响: 如果人体检测器失败——当人们靠近时很容易失败——则无法恢复。
  • 此外,它们的运行时间与图像中的人数成正比,对于每个人的检测,都运行一个单人姿态估计器。

相比之下,自底向上的方法很有吸引力,因为它们为早期承诺提供了鲁棒性,并有可能将运行时复杂度与图像中的人数解耦。

  • 然而,自底而上的方法不直接使用来自其他身体部位和其他人的全局上下文线索。
  • 最初的自底向上方法([1],[2])并没有保持效率上的提高,因为最终的解析需要昂贵的全局推理,每个图像需要几分钟。

本文提出一种有效的多人姿态估计方法,在多个公共基准上具有竞争的性能。

本文提出通过 Part Affinity Fields -PAFs (一组2D向量场) 的第一个自底向上的关联分数表示,编码了图像域上肢体的位置和方向。

我们证明,同时推理这些检测和关联的自下而上表示,为一个贪婪解析编码了足够的全局上下文,以实现高质量的结果,而计算成本只有一小部分。


这个手稿的早期版本出现在[3]中。这个版本有几个新的贡献。

  • 首先,我们证明了 PAF 的细化对于最大化精度是至关重要的,而身体部位预测的细化并不是那么重要。我们增加了网络深度,但去掉了身体部分的细化阶段(第3.1节和3.2节)。这种改进的网络将速度和准确度分别提高了大约200%和7%(第5.2节和5.3节)。
  • 其次,我们提供了一个带有 15K 个已公开发布的人类足部实例的注释足部数据集(第4.2节),并且我们表明,可以训练具有身体和足部关键点的组合模型,在保持仅身体模型的速度的同时保持其准确性(第5.5节)。
  • 第三,我们通过将该方法应用于车辆关键点估计任务(第5.6节)来证明该方法的通用性。
  • 最后,这项工作记录了 OpenPose 的发布[4]。这个开源库是第一个可用于 多人 2D 姿势检测的实时系统,包括身体,脚,手和面部关键点(第4节)。
  • 我们还包括与 Mask R-CNN[5]和 Alpha-Pose[6]的运行时比较,显示了我们自下而上方法的计算优势(第5.3节)。

单人姿态估计

铰接式人体姿态估计的传统方法是对人体部位的局部观察和它们之间的空间依赖关系的组合进行推断。

关节姿态的空间模型要么基于树形结构的图形模型[7],[8],[9],[10],[11],[12],[13],它们参数化编码了遵循运动链的相邻部分之间的空间关系,要么基于非树模型[14],[15],[16],[17],[18],它们增加了树结构的额外边缘,以捕获遮挡、对称和远距离关系。

为了获得可靠的人体部位局部观测,卷积神经网络(CNNs)被广泛应用,并显著提高了人体姿态估计[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29]、[30]、[31]、[32]的精度。

  • Tompson等人[23]使用了具有图形模型的深度架构,其参数与网络联合学习。
  • Pfister等人[33]通过设计具有大感受野的网络,进一步使用 CNNs 来隐式捕捉全局空间依赖关系。
  • Wei 等人提出的卷积姿态机架构[20]使用了基于顺序预测框架[34]的多阶段架构; 迭代地合并全局上下文以改进部分置信度图,并保留先前迭代的多模态不确定性。在每个阶段结束时执行中间监督,以解决训练过程中梯度消失的问题[35],[36],[37]。
  • Newell等人[19]还表明,中间监督在堆叠的沙漏结构中是有益的。

然而,所有这些方法都假设一个人,其中目标人物的位置和比例是已知的。

多人姿态估计

对于多人姿态估计,大多数方法[5],[6],[38],[39],[40],[41],[42],[43],[44]采用自顶向下的策略,首先检测人体,然后在每个检测区域上独立估计每个人的姿态。

尽管这种策略使得针对单人情况开发的技术可以直接适用,但它不仅受到早期行人检测的影响,而且无法捕捉不同人之间的空间依赖关系,这需要全局推理。

一些方法已经开始考虑人与人之间的依赖关系。

  • Eichner等人[45]扩展了图像结构,以考虑到一组交互的人和深度排序,但仍然需要一个人检测器来初始化检测假设。
  • Pishchulin等人[1]提出了一种自下而上的方法,联合标记部件检测候选对象并将其关联到个人,从检测部件的空间偏移中回归成对分数。该方法不依赖于行人检测,然而,在全连通图上求解所提出的整数线性规划是一个 NP-hard 问题,因此单幅图像的平均处理时间在几个小时左右。
  • Insafutdinov等人[2]建立在[1]上,基于ResNet[46]和图像相关的成对分数,具有更强的部分检测器,并通过增量优化方法大大提高了运行时间,但该方法仍然需要花费几分钟每张图像,最多限制为150个部分建议。[2]中使用的成对表示,即每对身体部位之间的偏移向量,很难精确回归,因此需要一个单独的逻辑回归将成对特征转换为概率分数。

在早期的工作[3]中,我们提出了 part affinity fields(PAFs),这是一种由一组流场组成的表示,用于编码可变数量的人身体部位之间的非结构化成对关系。与[1]和[2]相比,不需要额外的训练步骤,就可以有效地从 PAFs 中获得成对分数。这些分数足以使贪婪解析获得实时性能的高质量多人估计结果。

  • 在这项工作的同时,Insafutdinov等人[47]进一步简化了他们的人体部位关系图,以更快地在单帧模型中进行推理,并将关节人体跟踪制定为部位建议的时空分组。
  • 最近,Newell等人[48]提出了关联嵌入,可以认为是代表每个关键点组的标签。他们将具有相似标签的关键点分组为个人。
  • Papandreou等人[49]提出检测单个关键点并预测它们的相对位移,允许贪婪解码过程将关键点分组为人物实例。
  • Kocabas等人[50]提出了一种姿态残差网络,该网络接收关键点和行人检测,然后将关键点分配到检测到的行人边界框。
  • Nie等人[51]提出使用从关键点候选到图像中人物的质心的密集回归来划分所有关键点检测。

在这项工作中,我们对我们早期的工作[3]进行了一些扩展。

  • 我们证明了 PAF 细化对于高精度来说是关键和充分的,在增加网络深度的同时去掉了身体部分置信度图细化。这将导致一个更快、更准确的模型。
  • 我们还介绍了第一个结合身体和脚的关键点检测器,它是由一个注释的脚数据集创建的,该数据集将公开发布。
  • 我们证明,与独立运行两种检测方法相比,结合两种检测方法不仅减少了推断时间,而且还保持了它们各自的准确性。
  • 最后,我们提出了OpenPose,这是第一个用于实时身体、脚、手和面部关键点检测的开源库。

3 METHOD

图 2 说明了我们方法的整体 pipeline。该系统以大小为 w × h 的彩色图像作为输入(图 2a),并为图像中的每个像素生成解剖关键点的 2D 位置(图 2e)。首先,前馈网络预测身体部位位置的一组 2D 置信度图 S(图 2b)和一组部分亲和场 (PAF) 的 2D 向量场 L,它对部分之间的关联程度进行编码(图 2c)。

参考:https://blog.csdn.net/magic_ll/article/details/108105054

标签:身体,精读,检测,论文,2D,图像,Openpose,姿态,关键点
From: https://www.cnblogs.com/odesey/p/17430006.html

相关文章

  • Self-consistency Improves Chain of Thought Reasoning in Language Models 论文阅读
    ICLR2023原文地址1.MotivationChain-of-Thought(CoT)使LargeLanguageModels(LLMs)在复杂的推理任务中取得了令人鼓舞的结果。本文提出了一种新的解码策略——self-consistency,以取代贪婪解码。self-consistency利用了一种直觉,即一个复杂的推理问题通常允许多种不同的思维......
  • 基于JAVA的springboot+vue医院信息管理系统、医院挂号管理系统,附源码+数据库+论文+PPT
    1、项目介绍任何系统都要遵循系统设计的基本流程,本系统也不例外,同样需要经过市场调研,需求分析,概要设计,详细设计,编码,测试这些步骤,基于java语言设计并实现了医院信管系统。该系统基于B/S即所谓浏览器/服务器模式,应用java技术,选择MySQL作为后台数据库。系统主要包括首页,个人中心,用户......
  • [CVPR23 Highlight] Side Adapter Network for Open-Vocabulary Semantic Segmentatio
    **摘要本文提出了一个用于开放词汇语义分割的新框架SAN,将语义分割任务建模为区域识别问题,提取maskproposals并使用CLIP对mask进行识别。SAN可以重新利用CLIP的特征,因此其本身可以非常轻量;同时网络可以端到端地进行训练,从而使SAN适应冻结的CLIP模型。本文方法需要很少的参数量,且......
  • 论文翻译和润色工具
    先用翻译软件翻译成英文(deepl)然后一段一段把那个扔进chatgpt,网上应该有很多例子,教你怎么使用咒语(https://www.jianshu.com/p/f228222f623b)最后用grammaly检查一下语法  1翻译DeepL翻译:全世界最准确的翻译https://www.deepl.com/translator  2润色 chatg......
  • 事件抽取论文综述-A Survey on Deep Learning Event Extraction: Approaches and Appl
    ASurveyonDeepLearningEventExtraction:ApproachesandApplications1)发表信息:https://arxiv.org/abs/2107.02126QianLi,JianxinLi,Member,IEEE,JiaweiSheng,ShiyaoCui,JiaWu,SeniorMember,IEEE,YimingHei,HaoPeng,ShuGuo,LihongWang,Amin......
  • LOD技术的研究与应用——三维地质体-2012硕士论文
    作者:张彬摘要随着计算机科学的发展,工程上的一些数据表达形式更加丰富多彩,已经从原来二维表达逐步向三维表达迈进。三维能表达更多的信息,视觉上更清晰,更直观,能有效的帮助工程人员进行分析、预算、决策。目前不论是军事,电力,油田,还是企业,都将三维应用研究作为其研究的重点内容,三维......
  • Planar Odometry from a Radial Laser Scanner. A Range Flow-based Approach(1)论文解
    激光光流里程计的基本理解:(1)类比图像光流,假设光强度不变,图像是每个像素点,像素包含灰度值;激光光流,假设障碍物不动,光流是激光范围内的激光点,每个激光点包含距离和角度信息(2)图像信息求导,得到光强度;激光光流信息求导,得到速度(距离的速度,角度的速度),并可以用分解到笛卡尔坐标系下的速度......
  • 【论文解读|GL-Cache 】基于组级学习的缓存替换算法
    论文原文:GL-Cache:Group-levellearningforefficientandhigh-performancecaching|FAST'23源码地址:https://github.com/Thesys-lab/fast23-GLCache论文贡献:提出Group-levelLearning,利用多对象组的特征来适应工作负荷和缓存大小,通过分组来积累更强的学习信号,学......
  • [重读经典论文]RepVGG: Making VGG-style ConvNets Great Again
    1.参考视频:14.1RepVGG网络讲解博客:RepVGG网络简介2.主要内容2.1.与其他网络对比如下图所示,RepVGG无论是在精度还是速度上都已经超过了ResNet、EffcientNet以及ReNeXt等网络。2.2.创新点,结构重参数化在训练时,使用一个类似ResNet-style的多分支模型,而推理时转化成VGG-st......
  • [2020集训队论文] 最小连通块
    这是一道交互题。交互库里有一棵$n$个点的树,你可以通过做若干次如下询问来确定这棵树:给定一个节点集合$S$和节点$x$,交互库会告诉你$x$是否在包含$S$的最小连通块中。Details具体的,你需要引用头文件D.h并且实现以下函数:std::vector<std::pair<int,int>>work(int......