首页 > 其他分享 >【论文阅读笔记】【Hand Pose Estimation-Interacting Hand】 ACR: Attention Collaboration-based Regressor for Arb

【论文阅读笔记】【Hand Pose Estimation-Interacting Hand】 ACR: Attention Collaboration-based Regressor for Arb

时间:2024-09-22 15:24:12浏览次数:1  
标签:map based center Map hand Reconstruction Hand

CVPR 2023

读论文思考的问题

  1. 论文试图解决什么问题?写作背景是什么?

    问题:

    • 如何更好地在任意场景下实现双手的姿态估计和重构?

    背景:

    • 现有的方法将两只手当做一个整体去提取特征,同时回归出两只手的信息,这种特征对于双手识别来说并不是最优的,同时也带来了限制:输入必须是2只手;当遇到复杂情景(外部遮挡、截断等)时模型的表现不是很好

    • 以往的方法通常会引入 hand detector,可能会带来误差累积问题

  2. 文章提出了什么样的解决方法?

    • 提出了 ACR 模型,对于手部姿态采用了 pixel-level representation,消除了对 detector 的需求

    • 对于特征图的每个像素,都回归出以下几种图:

      1. Parameter Map

      2. Hand Center Map

      3. Part Segmentation Map

      4. Cross-hand Prior Map,

      通过以下 3 种方式对预测的 per-pixel MANO parameter 进行 ensemble:

      1. parameter map 和 center map 逐元素相乘相加

      2. cross-hand prior map 和另一只手的 center map 逐元素相乘相加

      3. parameter map 和 segmentation map 逐元素相乘相加(结果为 16 × 109)

    • 最后通过一个 MLP 再做一次集成

    • 提出了 collision-aware center-based representation 的方法来使得中心太靠近的两只手相互远离

  3. 你觉得解决方法的关键之处在哪里?

    • 引入了 per-pixel representation,避免了对 hand detector 的依赖

    • 通过预测 center-map,使得对一只手的姿态预测可以同时从这只手本身和另一只手来进行

    • 通过 part segmentation 的任务,使得对手部姿态的预测在手的内部也进行了解耦合(通过每个关节部分来分别预测手的整体姿态),这样对于手被截断的情景会具备一定的鲁棒性

  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 当两只手离得太远的时候,感觉 cross-hand prior map 没有什么用,预测出来的效果可能不佳

    • 当两只手在图片中占据的比例过小或者手的分辨率过低时,part-segmentation 可能不能输出很好的结果

  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?

    实验:

    1. 在 InterHand2.6M 和 FeiHand 数据集上和其他方法的对比

    2. 消融实验

      1. HRNet 和 ResNet-50 的对比

      2. 各个模块的作用:cross-hand-attention prior;part-based representation

标签:map,based,center,Map,hand,Reconstruction,Hand
From: https://www.cnblogs.com/yywwhh2000/p/18425354

相关文章